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大 数据 这 个 概念 自 诞生 以 来 ， 已 经 经 历 了 几 次 飞跃 。 时 至 今日 ， 大 数据 这 个 名 词 频繁 地 与 人 工 智 能 、DT、 预 测 等 词汇 放 在 
一 起 ， 看 上 去 数据 的 发 展 已 经 成 为 与 科技 发 展 甚至 整个 社会 发 展 平行 的 存在 切 的 颠覆 都 离 不 开 数 据 。 大 数据 是 一 种 赋 能 
工具 ， 它 的 作用 是 帮助 行业 加 速 价值 的 流通 ， 减 少 信息 不 对 称 ， 提 高 交易 效率 。 





市 面 上 大 数据 行业 相关 的 书籍 已 经 汗 牛 充 栋 ， 然 而 还 没有 这 样 一 本 书 一 一 全 面 地 解析 大 数据 、 企 业 和 人 之 间 的 关系 ， 站 在 
企业 管理 者 的 角度 解答 如 何 利用 大 数据 加 速 发展 、 押 取 更 多 的 价值 ; 更 没有 人 全 面 告诉 企业 的 管理 者 ， 如 果 想 转型 以 适应 当今 智 
能 数据 时 代 ， 应 该 储备 何 种 知识 和 人 才 。TalkingData 作 为 大 数据 行业 的 领军 企业 ， 决 定 写 这 样 一 本 书 。 


竞争 环境 : 行业 快速 发 展 ， 传 统 行业 加 速 转型 


根据 IDC 的 数据 显示 ， 到 2020 年 ， 全 球 大 数据 技术 和 服务 市 场 预计 将 达到 589 亿 美元 ， 其 中 大 数据 基础 设施 占 277 亿 美元 ， 
大 数据 软件 占 159 亿 美元 ， 大 数据 服务 占 (包括 专业 和 支持 服务 ) 153 亿 美元 。 相 比 于 北美 等 发 达 地 区 ， 中 国 大 数据 产业 虽然 年 
轻 ， 但 是 处 于 快速 发 展期 。 根 据 DT 大 数据 产业 创新 研究 院 (DTiii) 的 预测 ， 从 现在 到 2025 年 ， 大 数据 产业 的 经 济 总 量 将 呈 指 数 
级 增长 (如 下 图 ) ,覆盖 的 行业 包括 政府 、 人 金融、 电信、 交通、 工业、 能源、 房地产、 教育 、 商 业 服 务 、 医 疗 、 文 娱 、 农 业 等 。 


政府。 金融 电信 = 交通 工业 能源 房地产 a 教 育 商业 服务 上 医疗 a 文娱 = 农业 = 其 他 
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2015 一 一 2025 年 中 国 大 数据 产业 增长 趋势 图 
注 : 数据 来 源 于 DT 大 数据 产业 创新 研究 院 (DTiii，2016) 。 


除了 飞速 发 展 的 整个 行业 总 量 之 外 ， 大 数据 行业 本 身 也 带 有 快速 题 覆 迭代 的 特征 。 当 今 社会 ， 对 传统 大 数据 中 量 的 需求 已 经 
很 容易 达到 ， 大 数据 的 竞争 转向 了 数据 质量 。 那 些 深入 在 各 种 行业 情境 中 、 非 结构 化 的 、 与 业务 流程 直接 相关 的 数据 ， 成 为 高 价 
值 的 数据 类 型 。 只 有 将 这 部 分 数据 挖掘 出 来 ， 企 业 才 有 可 能 基于 自己 的 业务 进行 分 析 甚 至 预测 。 因 此 ， 大 数据 时 代 进 入 了 一 个 新 
的 纪元 一 一 智能 数据 时 代 。 


数据 和 人 工 智 能 是 智能 数据 时 代 的 鲜明 特征 ， 但 是 只 有 数据 和 人 工 智能 依然 不 足 ， 还 需要 人 类 智慧 的 参与 。 数 据 、 人 工 智能 
和 人 类 智慧 ， 成 为 智能 数据 时 代 的 三 大 要 素 。 


数据 的 积累 可 以 为 人 类 提供 更 多 更 细 的 洞察 分 析 ， 人 类 经 验 得 以 增强 ， 人 类 智慧 得 以 增长 。 比 如 ， 通 过 更 多 来 自 于 手机 的 用 


户 行为 分 析 ， 企 业 可 以 对 自己 的 用 户 有 更 多 了 解 ， 包 括 他 们 的 生活 喜好 、 消 费 习 惯 等 ， 以 此 产生 更 多 的 营销 机 会 。 人 工 智能 本 身 
也 需要 人 类 智慧 的 介入 ， 以 引导 人 工 智 能 的 方向 ,提高 人 工 智能 的 效率 。 比 如 ，AlphaGo 也 需要 不 断 地 与 人 类 围棋 高 手 对 战 ， 
依靠 人 类 智慧 的 辅助 ， 才 能 持续 提升 棋 力 。 


缺乏 人 类 智慧 的 持续 介入 ， 人 工 智能 对 数据 的 加 成 作用 会 随 着 数据 的 变化 逐步 弱化 甚至 失效 ; 缺乏 人 工 智能 ， 人 类 无 法 依靠 
自身 处 理 如 此 复杂 而 且 快 速 变化 的 数据 ; 缺乏 数据 ， 人 工 智 能 无 法 存在 ， 人 类 智慧 的 积累 也 会 放 缓 。 数 据 、 人 工 智能 和 人 类 智慧 
互相 促进 ， 组 成 一 个 正 向 的 循环 。 比 如 情景 感知 领域 ， 基 于 手机 上 体现 姿态 动作 的 传感器 数据 ， 经 过 人 工 智能 的 算法 ， 可 以 判断 
手机 用 户 的 动作 和 姿态 (包括 走路 、 骑 车 、 驾 驶 等 ) 。 如 果 判 断 不 够 准确 ， 就 需要 人 工 介入 ， 对 数据 再 进行 整理 和 增强 、 对 算法 
进行 优化 ， 直 到 结果 达到 可 用 的 程度 。 同 时 ， 具 有 情景 感知 能 力 的 手机 ， 可 以 给 应 用 开发 者 提供 更 多 的 应 用 场景 和 体验 ， 比 如 运 
动 健 身 、 金 融 风 控 、 物 流 管理 、 娱 乐 体验 等 ， 相 应 地 也 会 产生 更 多 的 数据 一 这 些 新 的 数据 让 人 类 智慧 更 快 积累 ， 也 让 人 工 智 
能 更 加 强大 。 比 如 ， 通 过 情景 感知 数据 ， 发 现 绝 大 部 分 用 户 在 使 用 App 的 时 候 手 机 都 是 处 于 手持 状态 ， 那 么 非 手 持 状态 的 使 用 场 
景 是 否 意味 着 更 大 的 金融 风险 ? 


人 工 智能 和 人 类 智慧 ， 让 数据 岂止 “大 ”，” 智能 数据 时 代 的 三 大 要 素 聚 合 裂变 ， 已 经 产生 难以 想象 的 价值 。 


现实 差距 : 人 才 缺 口 


很 多 企业 在 智能 数据 时 代 举 步 维 艰 ， 但 是 也 有 一 些 新 的 企业 脱颖而出 ， 利 用 数据 来 增强 自己 的 竞争 力 ， 在 各 个 领域 对 传统 企 
业 形 成 巨大 的 冲击 。 据 A16Z 的 2016 移 动 互 联网 报告 ， 以 GAFA (谷歌 、 亚 马 逊 、Facebook、 苹 果 ) 为 代表 的 数据 巨头 ， 已 经 在 
数据 和 技术 领域 建立 起 牢固 的 优势 ， 在 年 收入 规模 上 比 Wintel 同 盟 要 大 3 倍 。 反 过 来 ， 它 们 也 在 通过 数据 和 技术 改变 传统 行业 的 
形态 和 模式 ， 包 括 零 售 、 媒 体 发 行 、 汽 车 等 。 


这 些 新 的 数据 和 技术 的 先锋 具有 一 些 共同 的 特征 : 实现 了 业务 数据 化 和 数据 资产 化 ， 能 够 用 数据 来 驱动 场景 化 的 应 用 ， 高 效 
地 探索 和 转化 商业 价值 。 这 样 的 企业 ， 已 经 拥有 数据 驱动 的 文化 ， 我 们 叫做 智能 企业 (Smart Enterprise) : 


1. 具 有 灵活 的 技术 平台 和 数据 科学 能 力 ， 能 支撑 足够 大 的 数据 量 级 、 足 够 多 的 数据 维度 、 足 够 复杂 的 数据 类 型 、 足 够 灵活 的 
数据 格式 、 足 够 低 的 数据 洞察 延 时 等 ， 提 高 各 种 数据 应 用 场景 的 交付 效率 。 


2. 具 有 统一 的 数据 管理 策略 ， 以 管理 跨 企 业 的 、 一 致 的 数据 视图 ， 能 高 效 地 汇聚 数据 (包括 自 有 数据 和 第 三 方 数据 ) ， 也 能 
高 效 地 输出 数据 和 数据 服务 。 


3. 具 有 端 到 端的 数据 工程 能 力 ， 以 支撑 业务 线 的 可 管理 的 数据 运营 ， 形 成 数据 闭环 和 持续 的 业务 优化 。 


若 要 转型 为 智能 企业 ， 人 的 智慧 尤为 重要 ， 因 此 对 于 无 论 是 大 数据 企业 还 是 或 待 转型 的 传统 企业 来 说 ， 都 提出 了 人 才 的 类 
型 、 数 量 和 知识 结构 的 严 苟 挑战 。 但 是 一 个 严酷 的 现实 是 ， 现 在 的 人 才 储 备 是 远 远 跟 不 上 行业 需求 的 。 从 下 图 我 们 可 以 看 出 ,在 
搭建 大 数据 平台 应 用 来 应 对 转型 的 企业 所 遇 到 的 痛 点 中 ， 有 一 半 多 的 原因 是 卡 在 了 人 才 不 足 这 个 天 口上 。 根 据 DT 大 数据 产业 创 
新 研究 院 (DTIii) 资料 显示 ， 到 2025 年 ， 中 国 的 大 数据 人 才 缺 口 将 高 达 200 万 。 这 不 仅仅 是 在 中 国 ， 在 美国 问题 同样 严重 。 
MckKinsey 预 测 : 至 2018 年 ， 美 国 将 有 60% 的 组 织 设置 首席 数据 官 (CDO) ， 需 要 400 万 名 具备 大 数据 分 析 能 力 的 经 理 和 分 析 
师 ， 人 才 缺 口 将 达到 150 万 ; 未 来 八 年 将 有 19% 的 大 数据 人 才 需求 增长 。 


购买 大 数据 一 体 机 

公有 云 模式 的 大 数据 方案 
购买 秘 有 部 署 解决 方案 

目 主 研发 和 外 购 大 数据 系统 


自主 研发 大 数据 系统 
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国 缺乏 人 才 软 硬 件 成 本 高 。 国 投 入 与 产 出 不 成 比例 





























塔 建 大 数据 平台 应 用 方式 中 遇 到 的 主要 困难 
注 : 资料 来 源 于 CSDN 《2015 年 中 国 软件 开发 者 白皮书 》。 


从 上 面 的 数字 我 们 可 以 看 出 ,仅仅 靠 大 学 设立 相关 学 位 专业 和 社会 上 多 开 几 个 专家 培训 | 课程 是 无 法 弥补 如 此 大 的 人 才 缺 口 
的 。 智 能 数据 时 代 大 数据 人 才 的 培训 ， 需 要 严谨 的 知识 架构 设计 、 先 进 的 技术 工具 辅助 以 及 前 沿 的 行业 最 佳 实践 的 旦 陶 。 这 个 时 
候 ， 仅 仅 靠 学 术 界 和 社会 培训 的 努力 是 不 够 的 ， 身 为 一 线 离 炮 火 最 近 的 组 织 ， 大 数据 企业 本 身 应 当 积 极 投入 到 为 社会 进行 人 才 建 
设 和 储备 的 事业 中 去 。 


智能 数据 时 代 人 才 的 知识 架构 


在 智能 数据 时 代 ， 对 于 人 才 的 知识 储备 的 要 求 是 综合 的 。 如 下 图 所 示 ，TalkingData 认 为 智能 企业 所 需 的 人 才 应 当 具 备 行业 
领域 知识 、IT 技 能 和 数据 科学 知识 。 团 队 内 部 的 人 才 组 合 必须 能 够 合理 覆盖 这 三 个 知识 领域 ， 艰 巨 的 任务 才能 迎刃而解 。 


ER 经 营 目标 和 成 功 标 准 
行业 领域 知识 区 = > 


故事 表述 能 力 
领域 创造 力 、 热 情 和 好 奇 心 
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对 相关 领域 的 了 解 /常识 


数据 和 分 析 管理 
和 分 析 指 导 
en 分 析 领 导 力 
资源 系统 I 
”| 量化 能 力 和 创造 力 
数据 科学 
业务 需求 知识 
准备 数据 写 代码 


智能 企业 所 需 人 才 的 知识 结构 


TalkingData 认 为 ， 一 家 企业 如 果 要 向 智能 企业 转型 ， 必 须 具有 以 下 几 种 类 型 的 人 才 : 


1. 数 据 架构 师 。 负 责 制 定数 据 构架 管理 政策 及 指南 ， 解 决 数据 管理 组 织 之 间 的 争议 问题 ; 制定 数据 标准 、 应 用 标准 、 运 维 标 
准 ， 设 计 模 型 管理 流程 ， 整 理 数据 需求 并 为 其 他 类 型 的 数据 人 员 提 供 支 持 。 


2. 数 据 工程 师 。 大 数据 工程 解决 的 是 海量 数据 (起 码 在 T 级 别 以 上 ) 的 设计 、 部 署 、 存 储 和 计算 需求 等 方面 的 问题 。 在 当 
今 ， 大 数据 工程 师 要 设计 和 部 署 的 系统 往往 都 是 消费 者 和 内 部 工作 人 员 直 接 使 用 的 应 用 程序 。 简 而 言 之 ， 大 数据 工程 涉及 系统 的 
设计 、 部 署 和 实施 。 


3 数据 分 析 师 /数据 科学 家 。 大 数据 分 析 则 是 处 理 大 数据 工程 师 设计 的 系统 上 的 大 量 数 据 ， 它 涉及 分 析 趋 势 、 模 式 以 及 开发 
各 种 分 类 和 预测 系统 。 简 而 言 之 ， 大 数据 分 析 涉 及 大 数据 的 高 级 计算 (统计 、 建 模 预测 等 )。 


4 数据 产品 经 理 。 能 评估 和 洞察 数据 价值 、 分 析 问 题 并 快速 制定 落地 策略 ， 基 于 数据 设计 商业 化 逻辑 以 及 关键 指标 ， 能 灵活 
使 用 各 类 数据 工具 并 同时 熟知 项 目的 流程 管理 、 体 系 管理 、 人 员 激 励 等 。 


本 书 将 从 一 个 管理 者 的 视角 ， 从 大 数据 的 基本 概念 开始 ， 循 序 渐进 地 介绍 相关 工具 、 企 业 数据 工程 的 主要 活动 、 数 据 团 队 建 
设 以 及 相关 的 管理 支持 。TalkingData 的 十 余 位 一 线 员工 根据 自己 所 在 岗位 的 经 验 知识 ， 参 与 了 全 书 的 编写 工作 ， 他 们 是 (排名 
不 分 先后 ) : 何 香 薄 ， 马 斋 ， 李 正 伟 ， 杨 慧 ， 王 俊 ， 何 坤 ， 和 孔 元 明 ， 姜 伟 ， 王 福 胜 ， 潘 松柏 ， 卢 健 ， 张 学 人 敏 ， 曾 晓 春 ， 张 子 ， 人 徐 
岷 峰 ， 周 海 鹏 ， 吕 博 娜 。 他 们 不 仪 贡献 了 专业 的 要 点 知识 ， 也 融入 了 工作 中 的 实战 经 验 ， 知 识 点 与 案例 反复 穿插 ， 增 加 了 本 书 的 
实践 价值 。 希 望 通过 此 书 ， 管 理 者 能 够 建立 起 智能 企业 的 定位 ， 业 内 专业 人 士 能 够 有 更 清晰 的 战略 全 景 和 逻辑 脉络 。 


TalkingData， 致 力 于 帮助 企业 转型 为 数据 驱动 型 企业 ， 用 数据 的 心智 去 超越 未 来 。 
杨 慧 
2017 年 4 月 2 日 于 北京 
(TalkingData CEO 助 理 ， 中 国人 民 大 学 商学 院 博士 ， 


香港 中 文大 学 管理 学 系 博士 后 ) 


第 一 篇 ”大 数据 基础 知识 


第 1 草 ”大 数据 的 基本 定义 


当今 社会 ， 有 效 利 用 大 数据 可 以 让 我 们 拥有 压倒 性 的 竞争 优势 。 在 本 章 中 ， 我 们 将 介绍 什么 是 大 数据 ， 以 及 它 的 几 个 关键 概 


全 
中 


大 数据 究竟 是 什么 ” 乍 一 看 ， 这 个 术语 相当 模糊 ， 像 是 一 个 包含 海量 信息 的 词语 。 尽 管 这 样 的 描述 符合 我 们 心中 对 大 数据 这 
个 概念 的 设想 ， 但 它 并 没有 确切 地 告诉 我 们 大 数据 是 什么 。 


通常 人 们 认为 大 数据 就 是 超大 的 数据 集 ， 对 于 大 数据 的 管理 和 分 析 已 经 超出 了 传统 数据 处 理工 具 的 能 力 。 我 们 借助 互联 网 搜 
寻 关 于 大 数据 概念 的 一 切线 索 ， 发 现 大 数据 爱好 者 所 推广 和 分 享 的 大 数据 概念 可 以 精简 如 下 : 大 数据 界定 了 一 种 环境 ， 在 这 种 环 
境 中 数据 集 可 以 增长 到 很 大 的 规模 ， 以 至 于 常规 的 信息 技术 不 能 有 效 地 应 对 数据 集 规模 的 增长 。 换 句 话说 ,数据 集 已 经 增长 到 难 


以 管理 的 程度 ， 甚 至 难以 从 中 获取 价值 。 其 中 主要 的 困难 就 在 于 对 数据 的 收集 、 人 存储 、 检 索 、 共 享 、 分 析 以 及 可 视 化 。 


大 数据 的 概念 有 更 多 的 内 涵 和 外 延 ， 不 仅 包 括 数 据 集 的 规模 ， 还 包括 数据 利用 的 过 程 。 大 数据 甚至 已 成 为 其 他 业务 概念 的 同 
义 词 ， 如 商务 智能 、 分 析 和 数据 挖掘 。 


然而 ， 大 数据 并 不 是 一 个 新 鲜 事 物 。 虽 然 大 规模 的 数据 集 是 在 近 两 年 被 创造 出 来 的 ， 但 是 大 数据 在 科学 和 医学 领域 早 有 根 
源 ， 这 些 领 域 通 过 分 析 大 规模 数据 来 进行 药物 研发 、 物 理 建 模 以 及 其 他 研究 。 这 就 是 大 数据 概念 的 来 龙 去 脉 。 


第 一 篇 ”大 数据 基础 知识 


第 1 草 ”大 数据 的 基本 定义 


当今 社会 ， 有 效 利 用 大 数据 可 以 让 我 们 拥有 压倒 性 的 竞争 优势 。 在 本 章 中 ， 我 们 将 介绍 什么 是 大 数据 ， 以 及 它 的 几 个 关键 概 


全 
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大 数据 究竟 是 什么 ” 乍 一 看 ， 这 个 术语 相当 模糊 ， 像 是 一 个 包含 海量 信息 的 词语 。 尽 管 这 样 的 描述 符合 我 们 心中 对 大 数据 这 
个 概念 的 设想 ， 但 它 并 没有 确切 地 告诉 我 们 大 数据 是 什么 。 


通常 人 们 认为 大 数据 就 是 超大 的 数据 集 ， 对 于 大 数据 的 管理 和 分 析 已 经 超出 了 传统 数据 处 理工 具 的 能 力 。 我 们 借助 互联 网 搜 
寻 关 于 大 数据 概念 的 一 切线 索 ， 发 现 大 数据 爱好 者 所 推广 和 分 享 的 大 数据 概念 可 以 精简 如 下 : 大 数据 界定 了 一 种 环境 ， 在 这 种 环 
境 中 数据 集 可 以 增长 到 很 大 的 规模 ， 以 至 于 常规 的 信息 技术 不 能 有 效 地 应 对 数据 集 规模 的 增长 。 换 句 话说 ， 数 据 集 已 经 增长 到 难 
以 管理 的 程度 ， 甚 至 难以 从 中 获取 价值 。 其 中 主要 的 困难 就 在 于 对 数据 的 收集 、 人 存储 、 检 索 、 共 享 、 分 析 以 及 可 视 化 。 


大 数据 的 概念 有 更 多 的 内 涵 和 外 延 ， 不 仅 包 括 数 据 集 的 规模 ， 还 包括 数据 利用 的 过 程 。 大 数据 甚至 已 成 为 其 他 业务 概念 的 同 
义 词 ， 如 商务 智能 、 分 析 和 数据 挖掘 。 


然而 ， 大 数据 并 不 是 一 个 新 鲜 事 物 。 虽 然 大 规模 的 数据 集 是 在 近 两 年 被 创造 出 来 的 ， 但 是 大 数据 在 科学 和 医学 领域 早 有 根 
源 ， 这 些 领 域 通 过 分 析 大 规模 数据 来 进行 药物 研发 、 物 理 建 模 以 及 其 他 研究 。 这 就 是 大 数据 概念 的 来 龙 去 脉 。 


1.1 大 数据 分 析 的 出 现 


科学 家 对 大 数据 集 进 行 分 析 和 研究 ， 进 而 得 出 研究 结论 ， 在 这 种 情况 下 数据 越 多 、 分 析 研 究 越 多 ， 得 出 的 结果 也 就 越 好 。 研 
究 人 员 通 过 整合 相 天 数据 、 非 结构 化 数据 、 历 史 数 据 、 实 时 数据 ， 进 而 产生 我 们 现在 所 说 的 大 数据 。 


在 商业 领域 ， 大 数据 就 意味 着 商机 。 根 据 IBM 的 报告 ， 人 类 社会 现在 每 天 都 能 创造 出 2.5x 1018 字 节 的 数据 ， 从 而 使 得 世界 
上 90% 的 数据 都 能 在 过 往 的 两 年 间 被 创造 出 来 。 这 些 数据 来 自 社会 的 方方面面 : 收集 气象 信息 的 传感器 、 社 交 网 站 的 帖子 、 数 码 
图 片 、 在 线 视频 传输 、 在 线 交 易 记 录 ， 以 及 手机 的 GPSs 信 号 等 。 它 们 都 是 大 数据 的 催化 剂 ， 而 且 伴 随 着 数据 分 析 、 算 法 和 其 他 技 
术 的 进一步 使 用 ， 所 有 这 些 数据 的 内 在 价值 都 能 被 发 掘 出 来 。 


大 数据 在 很 多 领域 的 重要 作用 和 价值 业已 被 充分 证 明 。 例 如 美国 国家 海洋 气候 管理 局 (NOAA) 、 美 国 国家 航空 航天 管理 局 
(NASA) 以 及 美国 的 一 些 制药 公司 和 能 源 企业 等 ， 这 些 组 织 自身 积累 了 大 量 的 数据 ， 如 今 它们 每 天 利用 大 数据 技术 从 中 提取 价 
值 。 


美国 国家 海洋 气候 管理 局 运用 大 数据 技术 促进 气候 、 生 态 系统 、 天 气 和 商业 贸易 方面 的 研究 ， 而 美国 国家 航空 航天 管理 局 则 
将 大 数据 用 于 航天 和 其 他 方面 的 研究 。 制 药 公司 和 能 源 企业 则 利用 大 数据 实现 更 具体 的 研究 ， 例 如 药物 测试 和 地 球 物理 分 析 。 
《纽约 时 报 》 利 用 大 数据 进行 文本 分 析 和 网 络 信息 挖掘 ， 而 华 特 迪士尼 公司 则 将 大 数据 与 消费 者 的 行为 相关 联 ， 进 一 步 理 解 消费 
者 在 其 实体 店 、 主 题 公 园 、 门 户 网 站 的 消费 行为 。 


此 外 ， 大 数据 在 现代 商业 领域 还 另 有 妙用 : 大 型 组 织 日 渐 面 临 着 管理 大 量 合法 的 结构 化 和 非 结 构 化 数据 的 需求 ， 这 些 数据 涉 
及 从 数据 库 的 交易 信息 到 员工 微 博 ， 从 供应 商 的 记录 到 监督 部 门 的 文件 。 近 期 的 法 庭 案 件 倡导 企业 遵守 法 律 程序 ， 保 存 好 所 有 文 
档 、 电 子 邮 件 信息 以 及 其 他 电子 通信 设备 的 信息 ， 如 即时 通信 信息 和 互联 网 通信 设备 的 信息 ， 因 为 这 些 信 息 在 企业 面临 诉讼 时 可 
以 用 于 法 庭 的 电子 取证 。 





1.2 ”大 数据 如 何 友 掘 价值 

提取 出 有 价值 的 信息 总 是 说 起 来 容易 ， 做 起 来 难 。 从 理念 、 技 术 到 实践 操作 ， 任 何 一 个 环节 都 对 我 们 发 掘 大 数据 的 内 在 价值 
提出 了 挑战 。 

我 们 可 以 通过 四 个 维度 来 思考 大 数据 ， 这 四 个 维度 的 内 容 如 下 : 

1) 体 量 (Volume) 。 大 数据 的 数据 规模 很 大 。 企 业 里 处 处 充满 数据 ， 很 容易 积累 起 兆 级 乃至 PB 级 的 数据 信息 。 


2) 种 类 (Variety) 。 除 了 结构 化 数据 ， 大 数据 还 包含 各 种 各 样 的 非 结构 化 数据 ， 如 文本 、 音 频 、 视 频 、 点 击 流量 、 日 志文 
件 等 。 

3) 真实 (Veracity) 。 从 大 数据 整合 而 来 的 大 量 数据 信息 会 存在 一 定 的 统计 误差 和 对 信息 的 曲解 。 信 息 的 精确 性 对 其 价值 
至 关 重 要 。 


4) 速度 (Velocity) 。 大 数据 对 于 时 间 是 很 敏感 的 ， 因 为 在 企业 中 数据 是 时 时 流动 的 ， 必 须 使 用 大 数据 才能 最 大 化 它 的 商 
业 价 值 ， 但 是 从 中 得 出 的 结论 也 必须 要 适合 于 企业 的 历史 数据 才 行 。 


4V 从 四 个 维度 诠释 了 大 数据 的 价值 。 然 而 ， 大 数据 的 复杂 性 并 不 仅 限 于 以 上 四 个 维度 。 在 大 数据 驱动 过 程 中 ， 还 人 存在 其 他 
的 影响 要 素 。 而 这 一 过 程 是 大 数据 技术 和 分 析 的 混合 物 ， 它 们 被 用 于 定义 数据 资源 的 价值 ， 而 这 种 价值 又 可 以 转化 成 驱动 商业 进 
步 的 可 操作 元 素 。 


[a 


这 里 提 及 的 许多 技术 和 概念 并 不 新 奇 ， 而 是 在 大 数据 的 理念 下 “重新 ”出 现 的 。 最 好 的 办 法 是 划分 成 类 别 再 进行 分 析 ， 这 些 
技术 和 概念 包括 以 下 内 容 。 
传统 的 商务 智能 (BI) 领域 。 它 包括 广泛 的 商业 应 用 程序 以 及 对 数据 进行 收集 、 和 存储、 分 析 和 处 理 的 技术 。 而 且 BI 提 供 可 操 


作 的 信息 ， 它 们 使 用 基于 事实 的 支持 系统 来 做 出 更 好 的 商务 决策 。BI 通 过 对 来 自 数据 库 、 应 用 程序 以 及 其 他 数据 资源 的 数据 进行 
深度 分 析 而 推动 其 运行 。 在 一 些 领域 中 ，BI 能 够 提供 业务 运营 的 历史 、 当 前 和 预测 性 视图 。 


数据 挖掘 领域 。 这 是 一 个 从 不 同 角度 分 析 数 据 并 从 中 挖掘 有 用 信息 的 过 程 。 数 据 挖 掘 通常 适用 于 静态 数据 或 历史 数据 。 它 更 
关注 于 预测 目的 的 建 模 和 知识 发 现 ， 而 不 是 单纯 的 数据 描述 ， 其 目的 在 于 从 大 规模 数据 集中 发 现 新 模型 。 


统计 应 用 程序 。 这 些 程序 关注 以 统计 原理 为 基础 的 算法 ， 而 且 通 常 应 用 于 与 民意 调查 、 人 口 普查 相关 的 数据 集 以 及 其 他 的 静 
态 数 据 集 。 这 些 程序 处 理 的 数据 理论 上 以 样本 观测 值 为 主 ， 用 来 进行 评估 、 检 测 和 预测 分 析 。 经 验 数据 如 调查 和 实验 报告 的 数据 
是 可 分 析 信 息 的 主要 来 源 。 


预测 分 析 。 预 测 分 析 是 数据 统计 程序 中 的 一 类 ， 它 主要 是 对 数据 库 中 的 信息 和 趋势 进行 分 析 ， 从 而 得 到 预测 结论 。 在 金融 和 
科学 领域 中 预测 分 析 尤 为 重要 ， 一 旦 有 外 部 因素 加 入 数据 集中 ， 就 需要 进行 新 的 预测 。 预 测 分 析 的 一 个 主要 目的 在 于 识别 商业 运 
作 、 市 场 和 制造 业 中 的 风险 与 机 遇 。 


数据 建 模 。 它 是 一 种 假设 性 的 分 析 应 用 ， 其 中 嵌 套 着 多 重 的 “what-if” 语句， 通过 算法 被 应 用 于 多 个 数据 集 。 理 想 条 件 
下 ， 建 模 信息 的 变动 应 基于 对 算法 可 用 的 信息 ， 提 出 对 数据 集 变化 的 影响 的 分 析 。 数 据 建 模 与 数据 可 视 化 紧密 相依 ， 数据 可 视 化 
可 以 更 直观 地 展示 数据 。 


数据 管理 (Data Management) 。 数 据 管理 是 指 利用 计算 机 硬件 和 软件 技术 对 数据 进行 有 效 的 收集 、 存 储 、 处 理 和 应 用 的 
过 程 。 其 目的 在 于 充分 有 效 地 发 挥 数 据 的 作用 ， 包 括 元 数据 管理 、 数 据 结构 化 、 数 据 安 全 等 内 容 . 


数据 工程 (Data Engineering) 。 数 据 工 程 是 天 于 数据 生产 和 数据 使 用 的 信息 系统 工程 。 数 据 工程 建立 在 大 数据 背景 之 
下 ， 是 对 数据 库 的 建设 与 管理 的 工程 ， 其 主要 内 容 包括 数据 资产 积累 、 数 据 运 莒 过 程 、 数 据 处 理 结果 和 应 用 、 数 据 时 间 和 咨询 


扫 


数据 科学 (Data Science) 是 研究 数据 的 科学 。 数 据 科学 利用 统计 学 知识 和 计算 机 技术 对 专业 领域 的 对 象 实行 大 数据 分 析 
与 挖掘 以 及 其 他 方式 的 数据 处 理 ， 以 使 组 织 获 取 更 大 的 经 济 效益 。 数 据 科学 是 一 个 交叉 学 科 ， 在 思想 方法 上 ， 数 据 科 学 研究 继承 
了 统计 学 的 一 些 思 想 ， 例 如 在 大 量 数据 上 做 统计 性 的 搜索 、 比 较 、 聚 类 或 分 类 等 分 析 归 纳 ， 其 结论 是 一 种 相关 性 ， 而 并 不 一 定 是 
某 种 因果 关系 。 虽 然 都 依赖 大 量 的 计算 ， 但 数据 科学 与 计算 机 模拟 不 同 ， 它 并 非 是 基于 一 个 已 知 的 数学 模型 ， 而 是 用 大 量 数据 的 
相关 性 取代 了 因果 天 系 以 及 严格 的 理论 和 模型 ， 并 基于 这 些 相关 性 获得 新 的 “知识 ”。 


以 上 分 析 仅 仅 是 大 数据 先进 性 和 商业 价值 的 一 部 分 。 这 种 价值 的 存在 有 赖 于 人 们 对 竞争 优势 的 永 无 止境 的 追求 ， 并 鼓励 企业 
组 织 采 用 更 大 的 数据 存储 库 ， 容 纳 组 织 内 部 和 外 部 的 数据 ， 以 更 好 地 进行 趋势 揭示 、 数 据 统 计 、 行 动 决策 。 这 有 助 于 将 大 数据 的 
概念 、 相 关 工具 、 平 台 和 分 析 普 及 到 技术 专家 和 高 管 中 。 


1.3 ”大 数据 处 理 的 关键 一 一 数据 类 型 


体 量 大 只 是 大 数据 概念 的 一 部 分 。 人 们 越 来 越 认 识 到 半 结 构 化 数据 和 非 结构 化 数据 也 是 大 数据 的 重要 部 分 ， 它 们 往往 含有 十 
分 天 键 的 商用 信息 ， 因 而 更 加 能 够 满足 Bl 和 商业 操作 的 需要 。 而 且 我 们 应 该 认识 到 ， 非 结构 化 的 商业 数据 正在 快速 增长 ， 并 且 在 
可 预见 的 将 来 还 会 继续 增长 。 


数据 可 以 分 为 以 下 三 类 : 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 结 构 化 数据 通常 适用 于 传统 的 SQL 语言 数据 库 等 ， 其 
中 数据 按照 事先 定义 好 的 业务 规则 被 写 入 表 中 。 结 构 化 数据 通常 被 认为 是 最 易 处 理 的 数据 类 型 ， 因 为 它 可 以 被 定义 和 检索 ， 更 易 
于 访问 和 过 滤 。 


相 比 之 下 ， 非 结构 化 数据 通常 没有 相应 的 BI 系 统 与 之 匹配 。 它 不 能 被 有 效 地 写 入 表 中 ， 也 无 法 被 本 地 应 用 程序 或 数据 库 使 
用 。 非 结构 化 数据 的 典型 代表 就 是 二 进 制图 像 文件 的 集合 。 


半 结 构 化 数据 正好 处 于 结构 化 数据 和 非 结构 化 数据 之 间 。 半 结构 化 数据 不 能 按照 数据 库 中 的 表 和 结构 化 关系 进行 管理 。 然 


而 ， 它 也 不 同 于 非 结构 化 数据 ， 半 结构 化 数据 拥有 标签 或 其 他 标记 方式 ， 并 以 此 划分 数据 属性 ， 而 且 它 还 提供 一 套 关 于 数据 记录 
和 域 的 层级 结构 ， 以 此 来 定义 数据 。 


14 ”大 数据 处 理 的 微妙 之 处 


处 理 不 同类 型 数据 的 方式 正 趋 于 一 致 ， 因 为 进行 数据 处 理 的 设备 和 应 用 程序 都 设置 了 指定 的 XML 格 式 ， 以 及 特殊 行业 所 专 
用 的 XML 数 据 标准 (如 保险 业 的 ACORD 标 准 、 健 康 医疗 产业 的 HL7 标 准 ) 。XML 技 术 扩 展 了 大 数据 分 析 和 集成 工具 可 以 处 理 的 
数据 类 型 ， 但 这 些 技术 的 转换 能 力 仍然 受到 数据 复杂 性 和 数量 的 限制 ， 从 而 使 得 现 有 的 数据 类 型 转换 工具 和 数据 转换 的 需求 不 匹 
配 。 因 而 开启 了 新 类 型 的 通用 型 数据 类 型 转换 工具 的 大 门 ， 新 的 转换 工具 能 够 适用 于 各 种 数据 类 型 的 转换 与 融合 ， 而 且 不 用 编写 
代码 ， 同 时 还 能 适用 于 任何 应 用 程序 或 者 平台 架构 。 





大 数据 概念 的 定义 和 相关 分 析 工 具 的 开发 都 还 处 于 不 断 改进 的 状态 ， 这 些 应 用 工具 、 技 术 、 程 序 仍 在 不 断 演变 。 然 而 ， 这 并 
不 意味 着 那些 要 从 大 数据 集中 寻求 价值 的 人 应 该 等 待 。 大 数据 对 商业 运作 来 说 太 重 要 了 ， 不 能 采取 等 待 和 观望 的 方法 。 


真正 穿 门 在 于 发 现 能 处 理 多 种 类 型 数据 的 最 优 方 式 ， 同 时 还 能 保证 满足 数据 分 析 过 程 的 目标 。 最 好 的 做 法 就 是 把 硬件 、 软 件 
和 应 用 程序 结合 在 一 起 形成 一 种 可 管理 的 程序 ， 从 而 在 有 限时 间 内 传递 数据 结果 。 


存储 也 是 大 数据 的 关键 要 素 。 数 据 必须 存储 在 一 个 易于 访问 且 易 于 维护 的 地 方 。 这 对 大 多 数 企业 和 组 织 而 言 需 要 很 高 的 成 
本 ， 因 为 基于 网 络 的 数据 存储 如 SANA 和 NAS 等 的 购买 和 管理 都 很 昂贵 。 


数据 存储 技术 已 经 发 展 成 为 典型 数据 中 心 常见 的 元 素 之 一 ， 因 为 数据 存储 技术 已 经 成 熟 且 开始 商业 化 。 然 而 ， 现 代 企 业 不 断 
变化 的 需求 仍 对 存储 技术 施加 压力 ， 把 BI 引入 大 数据 的 分 析 就 是 一 个 比较 好 的 佐证 。 


大 数据 分 析 程 序 需要 超出 传统 存储 模式 的 存储 能 力 。 传 统 的 存储 技术 如 SANS、NAS 等 都 无 法 处 理 兆 级 和 干 兆 级 的 非 结构 化 
数据 。 因 此 ， 大 数据 分 析 程 序 的 成 功 运行 需要 一 种 处 理 大 量 数 据 的 新 方式 ， 以 及 一 种 新 的 数据 存储 平台 理念 。 


1.5 ”大 数据 环境 下 的 处 理 分 析 工 具 


1.Apache Hadoop 

Apache Hadoop (包括 基于 它 的 各 种 包装 ， 以 下 通称 Hadoop) 是 一 种 开源 工具 ， 它 提供 了 处 理 大 数据 的 新 平台 。 虽 然 
Hadoop 已 经 存在 一 段 时 间 了 ， 但 是 越 来 越 多 的 企业 才刚 刚 开 始 利用 其 功能 。Hadoop 平 台 旨 在 解决 大 量 数据 造成 的 问题 ， 特 别 
是 包含 复杂 结构 化 数据 和 非 结构 化 数据 的 混合 数据 ， 这 些 数据 不 适合 放 在 表 中 。Hadoop 在 需要 深度 分 析 和 计算 量 大 (如 集群 和 
定位 ) 的 情况 下 运行 良好 。 

对 于 寻求 利用 大 数据 的 决策 者 而 言 ，Hadoop 解 决 了 与 大 数据 相关 的 最 常见 的 问题 : 以 高 效 的 方式 存储 和 访问 大 量 数据 。 

Hadoop 的 内 在 设计 允许 它 作为 一 个 平台 运行 ， 它 能 够 在 大 量 的 分 布 式 机 器 上 工作 。 考 虑 到 这 一 点 ， 很 容易 看 出 Hadoop 如 
何 提供 额外 的 价值 : 网 络 管理 员 可 以 只 购买 大 量 的 商用 服务 器 ， 然 后 安装 并 在 每 个 服务 器 上 运行 Hadoop 软 件 。 


Hadoop 有 助 于 节省 与 大 规模 数据 集 有 关 的 管理 成 本 。 从 操作 上 看 ， 组 织 的 数据 都 加 载 在 Hadoop 平 台 上 ，Hadoop 软 件 把 
数据 分 解 成 可 管理 的 部 分 ， 同 时 把 数据 扩展 到 各 个 服务 器 上 。 分 布 式 存储 的 特性 意味 着 无 法 在 一 个 地 方 获取 全 部 的 数据 。 


Hadoop 还 可 以 追踪 数据 的 存储 位 置 ， 而 且 能 够 通过 创建 多 个 副本 来 维护 数据 。 这 就 强化 了 数据 存储 的 弹性 ， 因 为 即使 某 个 服务 
器 掉 线 或 损坏 ， 数 据 也 可 以 从 已 知 的 好 的 副本 自动 复制 。 


Hadoop 的 优势 还 表现 在 处 理 数据 方面 。 例 如 ， 传 统 的 集中 式 数 据 库 系 统 存 在 很 多 限制 ， 它 需要 一 个 连接 到 服务 器 级 系统 的 
大 磁盘 驱动 器 和 具有 多 个 处 理 器 的 驱动 器 。 在 这 种 情况 下 ， 数 据 分 析 就 会 受 限 于 磁盘 性 能 和 处 理 器 的 数量 。 


而 在 一 个 Hadoop 集 群 中 ， 每 个 服务 器 都 可 以 利用 Hadoop 的 能 力 在 整个 集群 中 传播 工作 和 数据 ， 从 而 参与 数据 的 处 理 。 换 
名 话说， 索引 工作 通过 向 集群 中 的 每 个 服务 器 发 送 代码 ， 各 个 处 理 器 就 会 对 自己 的 内 容 进行 检索 ， 然 后 结果 会 被 统一 反馈 回来 。 
这 在 Hadoop 中 称 为 分 布 式 计算 ， 也 就 是 代码 或 操作 被 分 布 到 所 有 处 理 器 上 ， 而 最 终 的 结果 精简 成 单一 的 集合 。 


Hadoop 在 处 理 大 规模 数据 集 时 表现 良好 ， 关 键 就 在 于 它 将 数据 分 散 到 各 个 处 理 器 上 ， 而 且 它 能 并 行 运行 所 有 处 理 器 来 处 理 


复杂 运算 问题 。 


然而 ， 冒 险 进 入 Hadoop 的 世界 并 不 是 一 种 “ 即 插 即 用 ”的 体验 。 为 确保 成 功 有 一 些 先决 条 件 : 硬件 要 求 和 环境 配置 。 首 先 
要 做 的 就 是 了 解 和 定义 分 析 过 程 。 大 多 数 首席 信息 官 都 对 商务 分 析 (BA) 和 BI 的 流程 相当 熟悉 ， 并 能 将 其 与 最 常用 的 过 程 层 
(提取 、 和 转换 和 加 载 ETL 组 件 ) 相 联系 ， 这 对 于 构建 BA 或 Bl 解决 方 案 至 天 重要 。 大 数据 的 分 析 和 操作 需要 企业 先 选 定 所 要 处 理 的 
数据 集 ， 整 合 它们 ， 然 后 进入 ETL 程 序 进行 处 理 。 在 这 里 需要 处 理 大 量 的 数据 ， 而 且 这 些 数 据 可 能 是 结构 化 的 、 非 结构 化 的 ， 或 
者 是 来 自 于 不 同 渠道 的 数据 资源 ， 如 社交 了 网站、 数据 日 志 、 门 户 网 站 、 移 动 通信 设备 和 传感器 等 。 


要 真正 实现 Hadoop 的 价值 ， 需 要 把 操作 程序 和 注意 事项 结合 起 来 (例如 一 个 容错 的 集群 架构 ， 选 用 最 贴 合 数据 的 计算 方 
法 ， 实 现 对 数据 集 的 并 行 计 算 或 批 处 理 ) ， 以 及 需要 一 个 能 够 支持 数据 从 存储 到 分 析 的 企业 级 平台 。 


我 们 应 该 明白 ， 并 非 所 有 的 企业 都 需要 用 到 大 数据 分 析 。 我 们 也 应 该 认真 思考 一 下 Hadoop 的 能 力 和 作用 。Hadoop 并 不 能 
够 依靠 自身 来 完成 一 切 ， 企 业 在 搭建 Hadoop 平 台 之 前 ， 还 要 考虑 除了 Hadoop 之 外 需要 什么 组 件 。 


例如 ， 企 业 运行 Hadoop 平 台 需 要 以 下 组 件 : 数据 管理 组 件 HDFS 和 HBase、 程 序 框架 组 件 MapReduce 和 OOZIE， 开 发 组 
件 Pig 和 Hive， 以 及 开源 Pentaho。 在 这 个 小 型 试点 项 目 中 并 不 需要 其 他 太 多 的 硬件 设备 。 其 中 硬件 必需 品 有 : 两 台 多 核 服务 
器 、 至 少 24GB 的 运行 内 存 ， 以 及 一 个 2TB 的 磁盘 。 这 就 足以 推动 一 个 小 型 试点 项 目 运行 起 来 。 


Hadoop 的 有 效 运行 和 管理 需要 一 定 的 专业 知识 和 经 验 ， 如 果 这 方面 准备 不 足 的 话 ， 就 需要 信息 技术 管理 人 员 与 能 够 提供 全 
面 技术 支持 的 服务 供应 商 进行 合作 。 这 方面 的 专业 知识 对 于 项 目 安全 尤为 重要 。Hadoop、HDFS、HBase 组 件 也 需要 安全 防 
护 。 换 名 话说， 进入 Hadoop 程 序 的 数据 仍然 需要 保护 ， 以 免 丢 失 。 


整体 来 看 ，Hadoop 平 台 是 对 企业 大 数据 分 析 实 力 进行 检测 的 关键 。 而 在 完成 检测 之 后 ， 如 何 解 决 平台 上 大 量 的 服务 器 托管 
问题 ， 也 就 成 为 大 数据 领域 所 要 继续 探索 的 内 容 了 。 

2.SmartDP 

Hadoop 是 数据 挖掘 的 重要 工具 ， 但 是 它 的 使 用 对 象 是 一 线 的 数据 挖掘 者 。 对 非 数据 分 析 企 业 而 言 ， 想 要 利用 Hadoop 等 开 
源 软 件 构 筑 自 身 完整 的 数据 分 析 体系 比较 复杂 ， 一 方面 是 因为 相关 数据 的 缺失 ， 另 一 方面 则 是 因为 搭建 完善 的 数据 分 析 体系 并 不 


容易 。 此 外 由 于 聘请 高 级 专家 的 成 本 过 高 ， 许 多 公司 更 乐意 引进 数据 分 析 工 具 。 诸 如 SmartDP 之 类 具有 “自助 服务 ”能 力 的 大 
数据 分 析 软 件 的 出 现 ， 为 企业 跨越 数据 鸿沟 提供 了 一 个 新 方式 。 


SmartDP 是 基于 智能 数据 应 用 探索 商业 价值 的 平台 ， 它 具有 数据 管理 、 数 据 工 程 和 数据 科学 的 能 力 ， 这 三 大 能 力 是 对 数据 
分 析 平 台 最 基础 也 是 最 重要 的 要 求 。 


在 数据 管理 方面 ，SmartDP 为 企业 提供 了 元 数据 管理 、 数 据 存储 、 数 据 治理 、 数 据 清洗 、 数 据 质 量 管理 、 人 员 权 限 管理 与 


数据 安全 维护 。 数 据 的 存储 与 管理 是 企业 数据 运用 的 基础 ，SmartDP 不 仅 能 够 协助 企业 进行 一 方 数据 的 管理 ， 还 能 充当 数据 的 
连接 器 ， 打 通 数据 平台 和 数据 市 场 ， 拓 展 企业 所 需 的 第 三 方 数据 ， 为 企业 深度 挖掘 商业 价值 提供 丰富 的 数据 环境 。 
在 数据 工程 方面 ，SmartDP 提 供 了 多 方 数据 接 入 、 数 据 整合 、 数 据 运营 、 应 用 接 入 、 数 据 分 析 、 数 据 可 视 化 呈现 、 数 据 结 


论 和 执行 建议 。 内 外 部 的 数据 整合 为 企业 数据 价值 挖 握 提供 了 丰富 的 原材料 ， 但 原材料 只 有 经 过 恰当 的 数据 处 理 才能 转化 为 价 
值 。SmartDP 的 特点 在 于 帮助 用 户 快速 实现 各 类 操作 ， 找 到 最 佳 的 数据 价值 挖掘 方式 。 





数据 工程 





” ”数据 运营 过 程 
数据 资产 积累 


图 1-1 ”以 SmartDP 为 例 的 数据 工程 应 用 


数据 科学 是 企业 数据 运用 的 重点 与 核心 ，SmartDP 为 没有 数据 管理 平台 和 处 理 能 力 的 用 户 提 供 了 处 理 数据 的 平台 与 应 用 。 
SmartDP 支 持 算法 开发 、 算 法 接 入 、 算 法 组 合 与 算法 自动 调整 (机 器 学 习 ) 。 人 工 智 能 与 开源 算法 的 引进 ， 为 企业 的 数据 应 用 
与 分 析 提 供 了 多 样 性 的 选择 与 多 水 平 的 应 用 ， 满 足 不 同 企业 、 不 同 层次 的 需求 。 


从 企业 内 部 数据 的 产生 到 产品 落地 后 产生 的 效果 ，SmartDP 打 通 了 企业 数据 的 全 链条 ， 缩 短 了 产业 的 价值 链 与 决策 链 ， 许 
多 之 前 必须 通过 外 包 才 能 解决 的 问题 ， 现 在 可 以 利用 内 部 数据 分 析 平 台 完 成 决策 ， 为 企业 提供 直接 可 操作 的 结果 。 


从 具体 的 产品 形态 看 ， 目 前 SmartDP 以 DMP 为 基础 ， 整 合 一 方 与 三 方 数据 ， 提 供 了 如 数据 管家 、 用 户 管家 、 脉 策 、 酷 屏 、 
人 际 地 图 等 一 系列 产品 应 用 。 数 气管 家 完成 了 数据 的 管理 ， 从 业务 源头 开始 ， 对 企业 内 外 部 的 数据 进行 梳理 与 整合 ， 脉 策 结合 用 
户 线 上 使 用 行为 与 线 下 活动 轨迹 ， 为 房地产 厂商 提供 最 优 的 选 址 ， 帮 助 企业 进行 决策 ; 酷 屏 能 为 企业 提供 简洁 清晰 的 可 视 化 图 
像 ， 为 用 户 提供 直观 展示 ; 人 际 地 图 从 用 户 的 职 、 住 、 娱 三 个 层面 挖掘 用 户 的 行为 轨迹 ， 分 析 用 户 的 消费 水 平 与 偏好 ， 为 企业 曹 
销 提供 最 直接 的 决策 推荐 信息 。 而 这 些 都 只 是 smartDP 中 的 部 分 功能 ， 外 部 算法 与 应 用 的 接 入 意味 着 SmartDP 能 够 实现 更 丰富 
的 功能 。 


1.6 ”智能 数据 时 代 到 来 


智能 数据 就 是 有 效 融 合 了 人 工 智能 和 人 类 智慧 的 数据 ， 这 样 的 数据 才能 持续 产生 商业 价值 。 这 个 名 词 的 出 现 揭示 了 数据 、 人 
和 机 器 三 者 之 间 的 有 机 联系 。 这 种 有 机 联系 赋予 数据 更 多 价值 ， 更 赋予 数据 心智 。 现 阶段 的 “数据 ”与 以 往 的 数据 已 经 有 很 大 不 
同 。 数 据 中 包含 的 信息 量 越 来 越 大 、 维 度 越 来 越 多 ， 从 图 像 、 声 音 等 富 媒体 数据 ， 逐 渐 过 渡 到 人 的 动作 、 姿 态 、 行 为 轨迹 ， 再 加 
上 地 理 位 置 、 天 气 、 社 会 群体 行为 等 ， 以 往 处 理 数 据 的 思路 已 经 难以 适应 “数据 ”本 身 发 展 的 速度 。 一 个 融合 人 类 智慧 、 人 工 智 
能 以 及 海量 非 结 构 化 数据 的 智能 数据 时 代 已 经 来 临 。 因 此 ，“ 发 展 多 年 的 “大 数据 ”即将 进入 “下半场 ” 。 


智能 数据 时 代 最 重要 的 三 个 要 素 是 : 数据 、 人 工 智 能 、 人 类 智慧 。 这 三 者 之 间 的 天 系 又 是 什么 ?我 们 可 以 做 个 比喻 。 数 据 相 
当 于 什么 ? 人 的 血液 。 人 工 智能 相当 于 什么 ”人 的 心脏 。 心 脏 需要 靠 血 液 供 给 ， 但 同时 它 还 会 根据 人 的 心跳 把 血液 再 输 回 给 
体 ， 从 此 往复 循环 ， 形 成 一 个 正 循环 。 人 类 智慧 是 什么 ”大 脑 ， 这 是 不 可 蔡 代 的 。 所 有 这 一 切 构成 了 智能 数据 时 代 的 三 个 要 素 。 
数据 的 积累 ， 推 动 了 人 工 智 能 的 进步 (数据 量 越 大 ， 训 练 出 来 的 人 工 智能 越 强 大 ) 和 人 类 智慧 的 积累 (通过 对 数据 的 洞察 和 分 
析 ， 人 类 经 验 得 以 增强 ， 智 慧 得 以 积累 ) ， 从 而 产生 了 更 多 的 应 用 场景 ; 应 用 场景 的 增加 ， 导 致 数据 在 量 级 和 维度 上 进一步 变 
化 ， 人 工 智能 不 一 定 能 够 处 理 所 有 的 变化 ， 所 以 需要 人 类 智慧 的 介入 ， 调 整 人 工 智能 以 适应 新 的 数据 处 理 方式 ， 从 而 使 人 工 智能 
得 以 进步 ， 并 且 也 进一步 积累 了 人 类 智慧 一 一 这 是 一 个 正 向 的 循环 。 数 据 、 人 工 智能 和 人 类 智慧 相互 促进 ， 迎 来 了 新 的 智能 数 
据 时 代 。 





缺乏 人 类 智慧 的 持续 介入 ， 人 工 智能 对 数据 的 加 成 作用 会 随 着 数据 的 变化 逐步 弱化 甚至 失效 ; 缺乏 人 工 智能 ， 人 类 无 法 处 理 
如 此 海量 的 数据 ; 缺乏 数据 ， 人 工 智能 无 法 和 存在， 人 类 智慧 的 积累 也 会 放 缓 。 比 如 通过 人 的 有 监督 的 训练 ， 可 以 获得 体现 人 姿态 
动作 的 手机 传感器 的 训练 数据 集 ， 这 是 体现 人 类 智慧 的 数据 。 这 些 数据 通过 人 工 智 能 的 算法 分 析 ， 然 后 经 过 人 类 智慧 的 参数 调整 
和 验证 ， 可 以 趋 近 反映 人 的 真实 动作 和 姿态 ， 实 现 情景 感知 能 力 。 具 有 情景 感知 能 力 的 手机 ， 可 以 提供 给 应 用 开发 者 更 多 的 应 用 
场景 ， 比 如 运动 健身 、 金 融 风 控 、 物 流 管理 、 娱 乐 体验 等 ， 每 个 领域 出 现 的 新 的 用 户 体验 ， 也 会 产生 更 多 的 数据 ， 让 人 类 智慧 继 
续 积 累 ， 让 人 工 智能 更 加 强大 。 又 比如 ， 原 始 数据 进入 SmartDP 以 后 ， 需 要 经 过 数据 架构 师 的 人 类 智慧 的 分 析 和 整理 ， 通 过 人 
工 智能 的 辅助 ， 才 能 得 到 干净 的 或 者 建 模 的 (比如 图 ) 数据 。 这 些 数据 在 使 用 的 时 候 也 必须 结合 人 类 智慧 和 人 工 智能 。 如 果 原 始 
数据 没有 经 过 运营 ， 垃 圾 进 垃圾 出 ， 就 不 是 智能 数据 。 甚 至 数据 还 需要 持续 的 运营 ， 如 果 运 营 中 断 ， 有 可 能 就 慢 慢 地 不 智能 了 
(过 期 了 ) 。 再 比如 在 行业 领域 ， 我 们 通过 咨询 (人 类 智慧 ， 积 累 了 行业 的 经 验 ) 帮助 客户 梳理 数据 的 脉络 ， 采 集 必要 的 数据 ， 
再 通过 人 工 智能 来 满足 业务 需求 ， 解 决 场景 化 的 问题 ， 同 时 又 产生 更 多 的 数据 。 


第 2 章 数据 的 艺术 


2.1 评估 可 能 性 的 艺术 


害怕 落后 是 向 前 发 展 的 强大 动力 。 在 今天 ， 很 多 组 织 都 致力 于 构建 大 数据 和 物 联 网 ， 仅 仅 因为 他 们 担心 自己 的 竞争 对 手 已 经 
开始 进行 这 项 工作 。 利 用 差异 化 解决 方案 进入 市 场 ， 吸 引 风 险 资 本 家 的 投资 ， 是 这 些 公司 的 共同 目标 。 很 多 公司 创业 失败 了 ,但 
是 有 些 公司 却 在 新 兴 市 场 中 发 展 起 来 ， 甚 至 对 部 分 成 熟 公司 构成 威胁 。 而 成 熟 公司 的 CEO 和 高 层 们 没有 忘记 在 早期 的 市 场 上 利 
用 新 型 解决 方案 获得 的 巨大 利益 。 


许多 这 样 的 组 织 开始 把 发 展 的 核心 集中 到 事实 问题 而 不 是 过 去 的 经 验 以 及 直 党 方面 。 数 据 开 始 成 为 企业 发 展 的 关键 ， 同 时 ， 
从 数据 中 得 到 的 信息 也 被 人 们 认为 是 天 键 性 的 东西 。 上 述 组 织 必 须 具 备 对 所 发 生 的 事 进行 反思 并 评 佑 的 能 力 ， 而 在 评估 一 项 新 的 
选择 或 者 决策 的 潜在 影响 时 ， 数 据 分 析 能 力 变 得 越 来 越 重 要 。 


从 表面 来 看 ， 大 数据 应 该 帮助 组 织 机 构 判 断 未 来 的 发 展 方向 。 毕 竟 ， 更 多 的 数据 种 类 和 更 大 的 数据 容量 会 有 助 于 揭露 新 的 真 
相 ， 有 很 多 公司 高 管 也 乐于 相信 这 种 价值 。 而 且 物 联网 似乎 也 开拓 了 新 的 业务 可 能 ， 不 仅 可 以 用 来 作为 对 抗 传统 竞争 者 的 方法 ， 
也 可 以 应 用 于 同 质 市 场 的 新 战略 的 开发 。 


因此 ， 许 多 上 组 织 的 任务 是 制定 一 个 使 用 大 数据 开发 新 解决 方案 的 战略 ， 这 将 对 业务 产生 重要 影响 。 由 于 相似 的 原因 ， 物 联 
网 也 受到 了 同样 高 度 的 关注 。 如 果 想 要 确定 这 些 举措 是 否 有 价值 ， 常 见 的 首要 方法 就 是 找 一 家 在 相同 行业 的 其 他 公司 中 发 生 的 精 
彩 实例 。 另 一 个 方法 就 是 去 查阅 大 量 各 种 各 样 的 数据 ， 并 期 待 好 运 降临 ， 从 而 直接 尝试 得 到 有 重要 价值 的 意外 业务 发 现 。 然 而 ， 


对 于 通过 分 析 数 据 (包括 来 自传 感 器 、 社 交 媒 体 、 网 站 和 其 他 流 式 数据 源 的 数据 ) 可 能 解决 的 业务 问题 ， 这 些 方法 很 少 能 在 没有 
假设 的 情况 下 工作 。 


为 了 发 展 这 种 假说 ， 你 的 公司 或 组 织 里 也 许 应 该 组 织 一 场 远景 规划 的 会 议 。 无 疑 ，IT 的 高 管 、 企 业 构 架 师 、IT 架 构 师 们 会 对 
未 来 IT 的 发 展 方向 有 着 自己 的 观点 ， 也 充分 认识 到 大 数据 和 物 联 网 的 巨大 潜力 。 然 而 ， 这 些 大 家 都 想 要 的 用 例 更 可 能 只 是 人 存在 于 
企业 家 们 的 心里 。 巧 合 的 是 ， 他 们 或 许 也 会 对 这 些 项 目 支 付 预算 。 


在 本 节 中 ， 我 们 摘 述 了 如 何 探索 在 以 后 的 信息 构建 中 可 能 出 现 的 东西 ， 并 且 通 过 评估 “可 能 的 艺术 ”来 推动 未 来 项 目的 发 
展 。 当 你 的 组 织 中 举办 过 这 样 的 会 议 时 ， 也 许 会 发 现 许 多 有 潜力 的 项 目 。 而 且 本 节 所 概述 的 技巧 ， 也 会 让 你 对 这 种 项 目的 可 行 性 
形成 一 种 可 靠 的 预测 评估 。 因 此 ， 你 就 能 够 将 精力 集中 到 能 得 到 应 有 支持 且 会 促进 业务 发 展 的 项 目 上 了 。 


图 2-1 强 调 了 在 我 们 的 方法 中 现在 所 处 的 阶段 ， 以 及 本 节 所 涉及 的 内 容 。 在 远景 规划 会 议 中 讨论 的 内 容 应 该 包括 现在 和 未 来 
的 业务 构建 、 数 据 构 建 、 应 用 构建 和 技术 构建 。 考 虑 到 这 只 是 探索 过 程 的 开始 ， 一 旦 我 们 具备 了 洞察 力 ， 并 确信 有 值得 探求 的 项 
目 ， 就 会 有 很 多 后 续 的 阶段 。 
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图 2-1 合理 想象 的 艺术 阶段 


第 2 章 ”数据 的 艺术 


2.1 评估 可 能 性 的 艺术 


害怕 落后 是 向 前 发 展 的 强大 动力 。 在 今天 ， 很 多 组 织 都 致力 于 构建 大 数据 和 物 联 网 ， 仅 仅 因为 他 们 担心 自己 的 竞争 对 手 已 经 
开始 进行 这 项 工作 。 利 用 差异 化 解决 方案 进入 市 场 ， 吸 引 风 险 资 本 家 的 投资 ， 是 这 些 公司 的 共同 目标 。 很 多 公司 创业 失败 了 ,但 
是 有 些 公司 却 在 新 兴 市 场 中 发 展 起 来 ， 甚 至 对 部 分 成 熟 公 司 构 成 威胁 。 而 成 熟 公 司 的 CEO 和 高 层 们 没有 忘记 在 早期 的 市 场 上 利 
用 新 型 解决 方案 获得 的 巨大 利益 。 


许多 这 样 的 组 织 开始 把 发 展 的 核心 集中 到 事实 问题 而 不 是 过 去 的 经 验 以 及 直 沉 方面。 数据 开始 成 为 企业 发 展 的 关键 ， 同 时 ， 
从 数据 中 得 到 的 信息 也 被 人 们 认为 是 关键 性 的 东西 。 上 述 组 织 必须 具备 对 所 发 生 的 事 进 行 反思 并 评估 的 能 力 ， 而 在 评估 一 项 新 的 
选择 或 者 决策 的 潜在 影响 时 ， 数 据 分 析 能 力 变 得 越 来 越 重 要 。 


从 表面 来 看 ， 大 数据 应 该 帮助 组 织 机 构 判 断 未 来 的 发 展 方向 。 毕 竟 ， 更 多 的 数据 种 类 和 更 大 的 数据 容量 会 有 助 于 揭露 新 的 真 
相 ， 有 很 多 公司 高 管 也 乐于 相信 这 种 价值 。 而 且 物 联网 似乎 也 开拓 了 新 的 业务 可 能 ， 不 仅 可 以 用 来 作为 对 抗 传统 竞争 者 的 方法 ， 
也 可 以 应 用 于 同 质 市 场 的 新 战略 的 开发 。 


因此 ,许多 IT 组 织 的 任务 是 制定 一 个 使 用 大 数据 开发 新 解决 方案 的 战略 ， 这 将 对 业务 产生 重要 影响 。 由 于 相似 的 原因 ， 物 联 
网 也 受到 了 同样 高 度 的 关注 。 如 果 想 要 确定 这 些 举 措 是 否 有 价值 ， 常 见 的 首要 方法 就 是 找 一 家 在 相同 行业 的 其 他 公司 中 发 生 的 精 
彩 实例 。 另 一 个 方法 就 是 去 查阅 大 量 各 种 各 样 的 数据 ， 并 期 待 好 运 降临 ， 从 而 直接 尝试 得 到 有 重要 价值 的 意外 业务 发 现 。 然 而 ， 
对 于 通过 分 析 数 据 (包括 来 自传 感 器 、 社 交 媒体 、 网 站 和 其 他 流 式 数据 源 的 数据 ) 可 能 解决 的 业务 问题 ， 这 些 方法 很 少 能 在 没有 
假设 的 情况 下 工作 。 


为 了 发 展 这 种 假说 ， 你 的 公司 或 组 织 里 也 许 应 该 组 织 一 场 远景 规划 的 会 议 。 无 疑 ，IT 的 高 管 、 企 业 构 架 师 、IT 架 构 师 们 会 对 
未 来 IT 的 发 展 方向 有 着 自己 的 观点 ， 也 充分 认识 到 大 数据 和 物 联 网 的 巨大 潜力 。 然 而 ， 这 些 大 家 都 想 要 的 用 例 更 可 能 只 是 人 存在 于 
企业 家 们 的 心里 。 巧 合 的 是 ， 他 们 或 许 也 会 对 这 些 项 目 支 付 预算 。 


在 本 节 中 ， 我 们 描述 了 如 何 探索 在 以 后 的 信息 构建 中 可 能 出 现 的 东西 ， 并 且 通 过 评估 “可 能 的 艺术 ”来 推动 未 来 项 目的 发 
展 。 当 你 的 组 织 中 举办 过 这 样 的 会 议 时 ， 也 许 会 发 现 许 多 有 潜力 的 项 目 。 而 且 本 节 所 概述 的 技巧 ， 也 会 让 你 对 这 种 项 目的 可 行 性 
形成 一 种 可 靠 的 预测 评估 。 因 此 ， 你 就 能 够 将 精力 集中 到 能 得 到 应 有 支持 且 会 促进 业务 发 展 的 项 目 上 了 。 


图 2-1 强 调 了 在 我 们 的 方法 中 现在 所 处 的 阶段 ， 以 及 本 节 所 涉及 的 内 容 。 在 远景 规划 会 议 中 讨论 的 内 容 应 该 包括 现在 和 未 来 
的 业务 构建 、 数 据 构 建 、 应 用 构建 和 技术 构建 。 考 虑 到 这 只 是 探索 过 程 的 开始 ， 一 旦 我 们 具备 了 洞察 力 ， 并 确信 有 值得 探求 的 项 
目 ， 就 会 有 很 多 后 续 的 阶段 。 
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图 2-1 合理 想象 的 艺术 阶段 


2.2 ”了解 现状 


在 制定 愿景 之 前 ， 明 白 我 们 当前 所 处 的 阶段 是 非常 重要 的 。 面 对 这 些 问题 时 ， 往 往 总 是 会 出 现 商业 角度 的 看 法 和 技术 角度 的 
看 法 。 从 商业 角度 ， 我 们 需要 知道 企业 高 管 和 分 析 师 是 否 对 现 有 的 信息 和 数据 满意 。 这 常常 会 引起 一 场 围绕 着 他 们 为 什么 和 怎么 
样 使 用 数据 、 数 据 粒 度 、 可 访问 的 时 间 范 围 以 及 数据 质量 的 讨论 。 我 们 会 讨论 数据 的 来 源 缺 失 和 数据 历史 ， 以 及 增加 这 些 数据 对 
容量 需求 在 未 来 的 影响 。 我 们 还 会 讨论 即时 数据 的 需求 和 什么 是 能 被 接受 的 好 时 机 。 


从 技术 角度 ， 我 们 需要 明白 当前 的 关键 数据 的 来 源 ， 知 道 这 些 数 据 是 怎样 移动 的 以 及 它们 将 去 往 哪 里 ， 了 解 现在 使 用 的 数据 
管理 系统 ， 以 及 现 阶 段 常用 或 缺失 的 商业 分 析 工 具 。 除 了 软件 之 外 ， 我 们 还 应 该 知道 服务 器 和 存储 器 组 件 在 当前 状态 结构 中 的 功 
能 和 寿命 。 我 们 还 应 该 了 解 ， 当 业务 必须 响应 不 断 变 化 的 条 件 时 ， 是 否 满 足 业 务 的 服务 级 别 协议 以 及 技术 基础 设施 的 灵活 性 和 变 
通 性 。 


2.3 ”自我 评估 、 完 善 度 、 信 息 架 构 


一 个 早期 的 对 当前 信息 架构 完善 程度 的 自我 评估 ， 能 使 一 个 组 织 深刻 认识 到 扩展 自我 当前 结构 的 能 力 。 如 果 一 个 组 织 还 停留 
在 基础 数据 仓库 的 落实 阶段 ， 那 就 最 好 不 要 期 望 通过 实施 大 数据 的 项 目 来 解决 所 有 问题 了 7。 事实 上 ， 这 样 的 项 目 可 能 会 妨碍 业务 
线 希 望 尽快 解决 更 高 优先 级 的 问题 。 


在 出 版 物 中 我 们 发 现 了 各 种 各 样 的 天 于 信息 架构 的 完善 度 评 定量 表 。 一 般 的 组 织 通常 走 这 样 的 路 线 : 数据 和 信息 仓库 ， 数 据 
和 信息 的 标准 化 ， 高 端 业务 优化 ， 信 息 服务 。 图 2-2 展 示 了 这 种 路 径 。 


数据 和 信息 仓库 数据 和 信息 的 标准 化 高 端 业 务 优化 信息 服务 


图 2-2 ”信息 构架 完善 度 阶段 





下 面 是 每 个 阶段 过 程 的 详细 阐述 。 


. 数据 和 信息 仓库 : 数据 在 很 多 数据 集 市 和 工具 中 重复 出 现 ， 主 要 在 业务 范围 内 进行 管理 ， 而 且 经 常会 产生 哪个 数据 集 才 是 
真 的 数据 集 的 争论 。 所 以 ， 所 有 来 自 数 据 的 结论 都 会 受到 质疑 。 





. 数据 和 信息 的 标准 化 : 集中 管理 的 独立 数据 集 和 企业 数据 库 由 于 注重 数据 的 质量 、 一 致 性 和 安全 性 ， 通 常 被 用 到 报告 和 即 
席 查 询 上 。IT 和 商业 会 在 数据 集 拓展 和 新 市 场 推广 上 进行 合作 。 


. 高 端 业务 优化 : 引入 流 数据 来 增强 传统 数据 源 。 预 测 分 析 用 于 更 好 地 理解 和 预测 决策 结果 上 。 


. 信息 服务 : 内 部 开发 的 可 信赖 的 数据 存储 和 分 析 工 具 ， 在 公司 和 企业 以 外 也 极 具 价值 。 客 户 可 以 通过 对 生意 伙伴 提供 支 
持 ， 从 业务 运营 中 收益 。 用 户 乐于 为 享受 服务 而 付费 。 


这 些 阶段 并 不 总 是 按照 一 个 连贯 的 顺序 ， 一 些 组 织 可 能 同时 经 历 好 几 个 阶段 。 例 如 ， 一 些 组 织 经 常 在 数据 的 存储 和 标准 化 这 


两 个 阶段 之 间 周 旋 ， 尤 其 是 IT 行业 的 发 展 速 度 不 足以 满足 来 自行 业 不 断 改变 的 分 析 需 求 。 当 这 种 周旋 发 生 的 时 候 ， 预 测 分 析 和 流 
动 数据 的 增加 有 时 会 得 以 开发 和 实施 。 


当然 ， 那 些 成 功 通过 前 三 个 阶段 的 组 织 会 创造 出 难以 置信 的 商业 价值 。 在 这 一 点 上 ， 一 些 人 考虑 建立 “订阅 ”， 这 样 就 可 以 
和 他 们 行业 的 数据 整合 者 展开 竞争 ， 因 为 他 们 开始 作为 服务 商 而 提供 信息 了 。 


当 你 对 组 织 的 完善 程度 进行 评估 的 时 候 ， 很 重要 的 一 点 就 是 要 认识 到 ， 当 你 作为 一 个 服务 商 从 存储 发 展 到 信息 服务 时 ，IT 必 
须 产 生 的 角色 和 技巧 变 得 越 来 越 高 端 。 开 展 新 项 目 时 ， 你 应 该 考虑 : 为 组 织 所 采用 的 是 不 是 一 个 有 重要 区 别 的 技能 ， 以 及 在 获取 
这 些 技能 时 所 需要 的 投资 ， 是 应 该 花 在 这 个 地 方 ， 还 是 应 该 伦 在 其 他 同样 赚钱 却 要 求 比较 少 的 项 目 上 。 


在 传统 数据 环境 中 ， 数 据 被 存储 于 “仓库 ”里 ， 这 限制 了 人 们 获取 数据 的 途径 。 与 其 不 同 的 是 ， 大 数据 环境 建立 在 分 布 式 存 
储 的 系统 之 中 。 


接 下 来 通过 运用 来 自 各 个 产业 的 具体 案例 ， 分 析 了 大 数据 对 于 不 同 产业 的 影响 ， 强 调 了 数据 仓库 与 大 数据 系统 这 两 种 应 用 方 
式 的 不 同 。 


了 解 目前 的 产业 趋势 以 及 最 佳 竞争 者 是 如 何 重新 定义 这 一 产业 趋势 的 信息 构架 的 ， 对 于 我 们 构建 未 来 信息 构架 是 很 重要 的 。 
大 数据 和 物 联网 (1OT) 正在 许多 产业 中 引领 一 场 重 新 定义 谁 是 真正 竞争 者 的 潮流 。 有 些 公司 使 用 了 能 使 受众 了 解数 据 的 新 方 
法 ， 这 种 新 方法 使 他 们 获得 了 新 的 业务 切入 点 和 解决 方案 。 


最 有 效 的 信息 构建 方式 总 是 与 特定 某 类 商业 问题 的 解决 相关 联 。 下 面 是 根据 不 同行 业 得 出 的 数据 仓库 项 目 和 包括 Hadoop 和 
1OT 的 信息 构架 清单 。 这 份 清单 可 能 会 给 你 带 来 些许 探索 新 项 目的 启发 ， 当 你 从 事 其 中 的 某 项 业务 时 ， 可 能 会 获得 巨大 的 投资 回 
报 。 


数据 仓库 : 农业 生产 和 优化 成 本 分 析 ， 产 量 分 析 ， 农 产品 定价 分 析 ， 农 产品 贸易 分 析 。 

Hadoop/IOT: 分 析 并 优化 耕作 模式 ， 施 肥 模 式 ， 收 获 时 节 ， 水 分 含量 (数据 来 自 土地 里 的 传感器 和 天 气 预测 ) 。 
. 汽车 制造 业 

数据 仓库 : 汽车 制造 的 成 本 和 数量 分 析 ， 供 应 链 ， 汽 车 的 保修 期 ， 市 场 和 营销 分 析 ， 人 力 资源 管理 。 
Hadoop/IOT: 顾客 心理 分 析 ， 车 联网 ， 服 务 需要 和 服务 调度 ， 驾 驶 历史 ， 司 机 紧急 监测 和 反应 程度 。 


. 银行 业 





数据 仓库 : 客户 对 金融 产品 渠道 的 感觉 ， 财 务 分 析 ， 欺 诈 检 测 ， 信 用 价值 ， 人 力 资源 管理 ， 营 业 网 点 优化 。 
Hadoop/IOT: 欺诈 检测 ， 风 险 分 析 和 客户 情绪 分 析 。 
- 通信 业 


数据 仓库 : 定价 策略 和 财务 ， 客 户 支持 和 服务 ， 营 销 分 析 ， 供 应 链 ， 物 流 和 流程 优化 ， 合 规 性 ， 营 业 网 点 优化 和 人 力 资源 管 
理 。 


Hadoop/ 物 联网 : 分 析 社 交 数 据 ， 移 动 设备 使 用 ， 网 络 质量 和 可 用 性 (使 用 传感器 数据 ) ， 网 络 欺诈 检测 ， 物 联网 中 的 扩 
展 网 络 管理 和 优化 。 


- 消费 性 包装 品 (快速 消费 品 ) 


数据 仓库 : 销售 ， 营 销 ， 供 应 商 ， 制 造 ， 物流 ， 消 费 趋势 和 风险 分 析 。 


Hadoop/IOT: 促销 有 效 性 分 析 (通过 社交 媒体 和 店内 传感器 ) ， 供 应 链 ， 运 输 过 程 中 制 成 品 的 状态 ， 零 售 产品 的 摆 放 和 风 
险 分 析 。 


. 教育 和 科研 

数据 仓库 : 教育 科研 机 构 的 财务 或 设施 分 析 ， 人 员 配 置 和 人 力 资源 管理 ， 校 友 介 绍 和 捐赠 形式 。 
Hadoop/IOT: 风险 学 生 分 析 (通过 传感器 数据 ) ， 科 研 数 据 以 及 设备 监控 分 析 和 优化 。 

. 医保 承担 者 

数据 仓库 : 护理 成 本 ， 护 理 质量 ， 风 险 和 欺诈 的 分 析 。 

Hadoop/IOT: 客户 情绪 ， 风 险 和 欺诈 的 分 析 。 

* 医疗 机 构 

数据 仓库 : 护理 成 本 ， 护 理 质量 ， 人 员 配 置 和 人 力 资源 以 及 风险 的 分 析 。 

Hadoop/IOT: 疾病 和 流行 病 传 染 模 式 研 究 ， 患 者 检测 ， 设 备 检测 和 优化 ， 患 者 情绪 以 及 风险 分 析 。 
高 科技 制造 业 

数据 仓库 : 供应 商 和 分 销 商 分 析 ， 物 流 管理 ， 产 品质 量 和 产品 保修 分 析 。 

Hadoop/IOT: 车 间 生 产 和 质量 分 析 ， 部 件 组 装 产品 质量 分 析 ， 产 品 故障 和 待定 故障 分 析 ， 自 动 化 服务 的 服务 请 求 分 析 。 
* 保险 (财产 保险 和 人 身 保险 ) 

数据 仓库 : 市 场 营 销 分 析 ， 人 力 资源 和 风险 分 析 。 

Hadoop/IOT: 客户 情绪 分 析 ， 风 险 分 析 。 

“ 执法 状况 

数据 仓库 : 执法 畅通 ， 犯 罪 数 据 统 计 ， 执 法 人 员 配 置 优化 分 析 。 

Hadoop/IOT: 威胁 执法 现状 分 析 (信息 来 源 于 社交 媒体 和 视频 收集 ) 。 

“ 媒体 和 娱乐 

数据 仓库 : 观看 者 偏好 ， 频 道 收视 率 ， 广 告 销 售 额 和 营销 促销 的 分 析 。 

Hadoop/IOT: 观看 习惯 分 析 (数据 来 自 机 顶 盒 ) ， 娱 乐 场所 顾客 娱乐 方式 分 析 ， 顾 客 情绪 分 析 。 
` 油气 资源 

数据 仓库 : 钻井 勘探 成 本 分 析 ， 潜 在 勘探 点 ， 油 气 生产 ， 人 力 资源 和 运输 优化 分 析 。 


Hadoop/IOT: 钻井 检测 分 析 (包括 钻探 故障 预防 ) 。 


对 


本 ug 
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数据 仓库 : 临床 试验 (包括 药物 相互 作用 研究 ) ， 药 物 测试 对 象 结果 分 析 ， 药 物 销售 分 析 以 及 人 力 资源 分 析 。 


Hadoop/IOT: 从 来 自 医用 传感器 、 普 通 大 众 的 日 常生 活 、 疾 病 跟踪 和 基因 组 学 研究 的 临床 数据 进行 分 析 。 


数据 仓库 : 市 场 篮子 分 析 ， 销 售 分 析 ， 供 应 链 、 仓 库 及 物流 派送 优化 分 析 。 
Hadoop/IOT: 全 渠道 零售 分 析 和 顾客 情绪 分 析 。 

` 运输 和 物流 业 

数据 仓库 : 物流 和 客运 路 线 分 析 ， 营 销 分 析 ， 仓 库 选 址 优化 ， 人 力 资源 分 析 和 优化 。 


Hadoop/IOT: 交通 流量 分 析 (数据 来 自 高 速 公路 传感器 ) ， 交 通 安全 的 分 析 和 控制 ， 设 备 性 能 和 潜在 故障 分 析 (数据 来 自 
车 载 传感器 ) ， 物 流 管理 (数据 来 自 物流 传感器 ) ， 以 及 客户 情绪 分 析 。 


公用 事业 


数据 仓库 : 传送 方式 的 改善 ， ( 电 、 和 气 等 资源 ) 运输 网 络 供应 能 力 的 分 析 和 提高 ， 客 户 能 源 利 用 分 析 ， 人 力 资源 分 析 和 优 
化 。 


Hadoop/IOT: 为 了 优化 传输 网 络 并 时 常 进 行 维护 ， 对 来 自 智 能 电表 的 数据 进行 分 析 。 


需要 注意 的 是 ， 上 述 清单 仪 列 出 了 2015 年 决定 实施 或 已 经 实施 的 部 分 项 目 。 随 着 各 种 企业 逐渐 发 现 新 方法 并 找到 解决 问题 
的 方案 ， 这 份 清单 也 会 随 之 改变 。 


在 本 书 的 后 面 ， 我 们 将 会 讨论 这 些 项 目的 优先 顺序 。 一 个 项 目 要 想 获 得 优先 地 位 ， 必 须要 从 事 与 计 算 机 信息 技术 (IT) 相关 
的 业务 。 当 一 个 项 目 有 了 优先 地 位 时 ， 该 项 目 获得 成 功 的 概率 将 大 大 提高 。 


在 这 一 点 上 ， 我 们 已 经 对 信息 构架 的 成 熟 度 进行 了 自我 评估 ， 同 时 审议 了 一 些 未 来 可 能 发 展 的 项 目 。 为 了 拓展 这 些 项 目 ， 我 
们 会 小 幅度 修改 现 有 的 信息 构架 。 举 例 来 说 ， 如 果 需 要 的 数据 大 部 分 为 结构 化 ， 并 且 数 据 仓库 的 基本 构架 是 健全 的 ， 那 么 仅 基 于 
这 一 构架 做 出 的 分 析 可 能 就 是 完美 的 。 然 而 ， 基 本 构架 往往 不 能 满足 现实 的 业务 需求 ， 所 以 ， 当 务 之 急 是 想 出 该 如 何 应 对 日 益 增 
长 的 需求 。 


对 现 有 构架 进行 修改 的 一 个 重要 原因 (你 可 能 已 经 从 本 书 的 主题 猜 到 ) 是 为 了 新 业务 的 需要 ， 因 为 这 些 新 型 数据 在 传统 的 数 
据 仓 库 中 很 难 被 分 析 。 例 如 ， 新 型 数据 可 能 包括 流 式 数 据 和 半 结 构 化 数据 ， 这 种 数据 会 引入 高 速 、 大 容量 的 数据 摄取 要 求 。 这 一 
要 求 可 能 使 之 前 不 需要 的 NoSQl 数 据 库 和 Hadoop 也 被 列 入 信息 构架 之 中 。 研 究 Hadoop 的 数据 科学 家 们 也 希望 推进 新 兴 数 据 收 
集 工 具 和 数据 分 析 引 警 的 采用 。 


如 何 收集 外 界 的 数据 需求 ”如 何 与 他 人 合作 开发 未 来 的 信息 构架 ”一 般 是 定期 举行 会 议 《有 时 称 作 研讨 会 ) 规划 未 来 事物 、 
收集 客户 需求 。 收 集 客户 的 初步 需求 可 能 只 需要 两 到 三 小 时 ， 但 它 却 可 以 确定 我 们 今后 要 遵循 的 方向 。 





在 研讨 会 中 ， 参 加 者 们 会 讨论 当前 的 数据 仓库 、 商 业 智 能 以 及 ETL 工 具 和 数据 处 理 的 解决 方案 等 问题 。 也 可 能 讨论 包括 服务 
器 和 存储 器 在 内 的 基础 设施 ， 其 中 ， 对 现 有 组 件 进行 升级 或 替换 往往 是 第 一 项 讨论 的 内 容 。 举 例 来 说 ， 如 果 目 标 数据 仓库 上 的 
ETL 所 需 的 性 能 和 资源 出 现 问题 ， 那 么 考虑 利用 流 数 据 源 所 需 的 Hadoop 集 群 也 称 为 ETL 引 警 可 能 是 有 意义 的 。 


事实 上 ，Hadoop 集 群 可 以 成 为 所 有 数据 的 初始 着 陆 点 。 如 果 想 知道 如 何 进行 预测 分 析 或 者 如 何 重新 评估 预测 分 析 的 可 行 
性 ， 可 以 查阅 Hadoop 集 群 进行 深入 了 解 。 


在 这 一 阶段 ， 很 多 技术 工作 人 员 可 能 会 担心 ， 当 前 我 们 进行 信息 构架 的 成 熟 度 与 正在 规划 的 前 景 可 能 极度 不 符 。1T 或 业务 线 
上 的 技术 与 规划 中 要 求 的 技术 有 明显 差距 ， 数 据 管 理 和 操作 问题 也 可 能 会 随 之 出 现 。 潜 在 成 本 和 对 预算 的 影响 往往 是 IT 高 管 们 最 
关心 的 问题 。 


在 初始 阶段 就 对 这 些 问 题 予以 关注 是 有 好 处 的 。 然 而 这 只 是 最 初 阶段 ， 我 们 正在 构建 未 来 信息 架构 可 能 成 为 什么 样 的 愿景 。 
我 们 所 了 解 的 业务 案例 还 不 足以 确保 全 面 地 开展 项 目 。 同 样 ， 我 们 对 数据 细节 的 了 解 也 很 少 。 在 后 面 的 阶段 中 ， 我 们 将 对 前 述 业 
务 案例 和 数据 进行 全 面 理解 ， 同 时 也 会 更 频繁 地 评估 所 需要 的 技能 。 在 我 们 开始 构建 未 来 的 信息 架构 时 ， 将 更 充分 地 考虑 潜在 成 
本 。 


现在 ， 我 们 只 是 在 探索 可 能 性 的 艺术 。 


2.4 愿景 部 署 


这 一 愿景 往往 在 促进 规划 的 白板 会 议 期 间 得 到 部 署 构 建 。 即 使 是 在 一 步 步 修 改 信息 架构 的 最 初 阶段 ， 也 需要 和 大 量 主要 的 利 
益 相关 者 进行 沟通 。 要 想 了 解 当前 架构 及 其 组 件 ， 你 应 该 认识 架构 师 和 IT 管理 员 。 但 同时 ， 为 了 应 对 可 能 出 现 的 新 问题， 你 们 自 
己 的 业务 主管 和 分 析 师 也 必须 清楚 地 知道 数据 来 源 是 什么 。 业 务 分 析 员 对 于 数据 颗粒 度 以 及 数据 需要 保留 多 长 时 间 ， 与 IT 界 可 能 
看 法 完全 不 同 。 请 记 住 ， 现 在 不 是 两 方 争辩 的 时 候 ， 这 是 汇集 每 个 人 想法 的 时 候 。 


当然 ， 这 对 你 的 会 前 准备 工作 是 没有 影响 的 。 如 果 CIO (首席 信息 官 ) 或 其 他 高 级 IT 领导 者 不 定时 参加 业务 规划 会 议 ， 你 就 
需要 看 一 下 这 个 组 织 的 顶端 业务 优先 等 级 ， 这 些 在 收益 报告 、 僵 余 报 表 、 公 司 内 部 广播 和 其 他 的 论坛 里 都 有 清晰 的 陈述 。 你 也 许 
会 对 竞争 做 同样 的 调查 ， 因 为 公司 的 业务 高 管 可 能 强烈 地 意识 到 竞争 的 存在。 


在 一 些 信息 技术 与 业务 线 已 经 断 开 的 公司 和 组 织 中 ， 他 们 基本 已 失去 了 其 他 公司 的 信任 。 只 有 IT 团队 还 在 试图 追求 他 们 认为 
的 能 产生 巨大 利益 的 信息 架构 。 这 种 努力 一 般 只 存在 于 单纯 的 研究 中 ， 因 为 在 重新 建立 合作 之 前 ， 他 们 只 有 少量 可 用 资金 。 


为 了 使 你 的 会 议 获得 良好 效果 ， 你 应 该 在 会 议 之 前 说 明 会 议 目标 和 会 议 议 程 。 例 如 ， 你 的 目标 可 以 是 希望 在 5 年 内 获得 早期 
投入 ， 这 将 使 公司 能 提供 更 好 的 服务 与 产品 。 请 注意 ， 除 了 IT 目标 ， 我 们 还 有 一 个 业务 目标 ， 如 果 想 要 让 业务 人 员 参 加 会 议 ， 需 
要 提前 告诉 他 们 我 们 的 业务 目标 。 


会 议 上 将 要 讨论 的 问题 大 致 是 这 样 的 : 

. 会 议 的 总 体 目标 ; 

:与 会 者 进行 个 人 介绍 ， 并 介绍 自己 的 参 会 目标 ; 
: 对 要 收集 的 信息 类 型 进行 概括 ; 

讨论 当前 信息 构架 的 成 熟 度 及 其 影响 ; 

" 回顾 信息 构架 的 发 展 并 讨论 业务 解决 方案 ; 

. 讨论 什么 需要 改变 以 及 为 什么 ; 

. 信息 构架 以 及 业务 解决 方案 的 发 展 愿景 ; 


. 讨论 下 一 步 发 展 计 划 以 及 其 他 需要 讨论 的 问题 。 


你 应 该 在 会 议 开 始 时 就 告诉 大 家 计算 机 中 输入 的 数据 和 白板 上 的 内 容 都 会 被 记录 保存 。 你 还 应 该 在 会 议 开始 前 承诺 ， 会 议 结 
束 后 会 将 收集 的 信息 和 得 出 的 分 析 报 告发 给 大 家 。 


2.5 ”现在 和 将 来 的 数据 仓库 


IT 团队 可 能 已 经 列 出 了 目前 信息 架构 的 详细 图 表 。 当 我 们 开始 研究 信息 架构 的 发 展 过 程 时 ， 这 些 图 表 可 以 成 为 有 用 的 参考 资 


料 。 然 而 ， 在 下 面 的 介绍 中 ， 我 们 将 简化 这 些 图 表 并 重点 关注 与 前 景 部 署 有 关 的 业务 领域 。 
图 2-3 表 明了 当天 注 的 焦点 放 在 提高 一 家 零售 公司 的 促销 和 营销 时 ， 一 个 当前 状态 的 足迹 是 怎样 可 能 被 前 明 的 。 我 们 将 使 用 


同样 的 或 类 似 的 图 表 进 行 分 析 。 在 这 个 例子 中 ，EDW (Enterprise Data Warehouse， 公 司 数 据 仓库 ) 平台 提供 过 去 的 数据 ， 
多 个 OLTP 系 统 (ERP (企业 资源 计划 ) 和 CRM (客户 关系 管理 ) 系统 如 图 所 示 ) 提供 现 有 的 数据 。 数 据 集 市 将 EDW 包 围 ， 为 其 
提供 资源 。 业 务 分 析 员 使 用 报告 、 即 席 查 询 和 分 析 工 具 进 入 数据 集 市 搜集 数据 。 图 表 还 指出 了 当前 我 们 正 努 力 发 展 的 部 分 关键 技 
术 ， 后 面 的 章节 将 讨论 这 些 技术 。 
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图 2-3 ”典型 的 信息 架构 图 
在 讨论 这 个 架构 图 的 同时 ， 我 们 还 可 以 讨论 很 多 其 他 的 问题 ， 例 如 : 
“ 数据 的 当前 粒度 以 及 EDW 实 际 保存 的 历史 信息 的 广度 (以 及 期 望 的 广度 ) 。 
“ 数据 集 市 的 有 效 性 ， 包 括 数据 之 间 的 重合 、 扩 展 或 在 开发 新 兴 市 场 中 发 挥 的 作用 ， 以 及 反映 的 数据 的 历史 变化 。 
当前 数据 报告 ， 商 业 智 能 工具 以 及 数据 仪表 板 的 有 效 性 。 
“ 出 现 重 且 功能 和 相关 用 户 团 体 ， 对 商业 智能 工具 所 提出 的 要 求 。 
“ 在 数据 集 市 中 需要 的 具有 相似 内 容 的 数据 模型 。 
“ 数据 预测 和 数据 挖掘。 
“ 客户 对 当前 数据 查询 和 数据 分 析 性 能 的 满意 程度 调查 。 
` 提出 问题 或 建议 。 
* 第 三 方 数据 源 的 重要 性 以 及 该 部 分 数据 对 数据 集 市 的 适用 性 。 
" 解决 新 问题 所 依靠 的 新 数据 。 


“EDW 和 数据 集 市 中 对 于 数据 质量 的 当前 要 求 和 未 来 要 求 。 


数据 更 新 频率 以 及 向 EDW 或 数据 集 市 及 时 传送 数据 以 做 出 业务 决策 的 能 力 。 
“ 对 数据 安全 性 的 关注 ， 包 括 静 态 和 动态 的 数据 。 
. 对 更 高 可 用 性 的 EDW 和 数据 集 市 的 需要 。 

I 、 
如 果 其 他 的 架构 师 对 你 的 架构 提出 修改 ， 你 应 该 感到 高 兴 ， 做 出 标记 ， 并 让 他 们 画 出 自己 的 版 本 。 他 们 所 画 的 信息 架构 可 能 


与 我 们 本 章 中 提供 的 插图 有 很 大 不 同 ， 你 可 以 从 他 们 的 版 本 中 受到 启发 。 这 将 汇集 共同 智慧 ， 并 更 好 地 合作 以 构建 一 个 我 们 未 来 


架构 的 共同 愿景 。 


你 应 该 尽 可 能 多 地 收集 信息 ， 并 根据 需要 在 白板 上 做 出 标记 。 为 了 使 每 个 参 会 者 都 能 理解 会 议 内 容 ， 你 应 随时 记录 数据 集 
市 、 数 据 来 源 和 其 他 数据 组 件 的 名 称 。 

就 像 上 文中 指出 的 那样 ， 我 们 在 会 议 中 也 可 能 会 讨论 数据 安全 的 问题 。 一 些 讨论 将 由 该 组 织 所 属 行业 的 独特 需求 驱动 。 如 果 
你 在 某 些 特定 领域 或 者 政府 机 构 中 工作 ， 你 可 能 对 该 特定 行业 的 安全 要 求 有 所 了 解 。 但 是 ， 如 果 你 在 许多 不 同 的 行业 中 进行 咨 
询 ， 表 2-1 可 以 提供 对 常用 标准 的 一 些 有 用 的 描述 。 


表 2-1 不 同 领 域 的 数据 安全 标准 示例 


产业 标准 名 称 描述 
欧盟 欧盟 数据 保护 指令 (EUDPD) 要 求 所 有 欧盟 成 员 国都 接受 这 一 指令 
金融 /银行 业 美国 审计 人 员 安 全 指南 规定 了 网 上 银行 的 安全 要 求 
Gramm-Leach-Bliley Act ( GLB 
, , GLBA) 、 a 加 、 
金融 /银行 服务 |” 规定 了 金融 数据 收集 中 的 隐私 和 安全 要 求 


格雷 姆 - 里 奇 - 比 利 雷 法 (GLB 
或 GLBA， 人 金融 现代 化 法 案 ) 
第 三 方 支付 行业 数据 安全 标准 | 第 三 方 支付 的 数据 安全 标准 : 身份 验证 、 信 


爹 融 ee 
用 诈骗 的 侦查 与 预防 
: 疗 数据 的 访问 控制 审计、 数据 完整 性 
医疗 /病例 卫生 信息 责任 法 案 (HIPAA) 医疗 数据 的 访问 控制 、 审 计 、 数 据 完整 性 和 
加 密 标 准 
( 续 ) 
产业 标准 名 称 描述 
绩 、 er 上 及 学 费 等 :学 :/ = 类 时 也 了 颖 :> 
美国 教育 部 家 庭 教育 权利 与 隐私 法 (FERPA)| ”成绩 、 注 册 以 及 学 费 学 有 关 学 生 数据 的 隐私 


标准 


美国 国家 标准 与 技术 研究 院 
美国 政府 机 构 的 身份 验证 、 密 钥 管理 以 
标准 (FIPS ) Wh 





你 还 可 以 根据 需要 向 业务 分 析 员 咨询 ， 他 们 会 根据 你 的 要 求 在 沙 箱 的 隔离 下 浏览 各 种 数据 。 以 前 ， 这 些 沙 箱 一 般 会 应 用 在 
EDW 或 一 次 性 数据 集 市 中 。 现 在 ， 出 现 了 使 用 自己 的 数据 管理 引擎 或 使 用 Hadoop 进 行 数据 管理 的 信息 发 现 工 具 ， 这 些 新 型 工 
具有 利于 更 灵活 、 更 及 时 地 探索 新 数据 ， 因 为 它们 是 “无 模式 ”的 ， 也 就 是 在 使 用 前 不 需要 预先 设置 它们 的 模式 。 


图 2-4 将 信息 发 现 工具 添加 到 我 们 当前 的 数据 仓库 体系 结构 中 。 了 解 这 些 工具 带 来 的 商业 智能 可 以 帮助 我 们 更 好 地 利用 


Hadoop 集 群 中 的 数据 ， 使 用 这 些 工具 也 可 以 推动 数据 集 市 和 传统 商业 智能 工具 的 发 展 。 
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图 2-4 ”从 架构 图 中 发 现 的 信息 


你 应 该 从 业务 分 析 员 那里 收集 他 们 认为 能 带 来 有 形 商业 利益 的 数据 报告 和 分 析 视 角 。 他 们 能 够 告诉 你 不 同行 业 中 最 具 实 用 性 
的 数据 ， 或 者 提供 一 些 有 助 于 研究 自己 所 在 组 织 的 分 析 效 率 的 信息 。 这 些 信 息 在 今后 详细 讨论 如 何 确定 具有 竞争 力 的 项 目 业务 时 
会 显得 更 为 重要 。 


1. 确 定 Hadoop 和 NoSQL 的 适用 范围 


我 们 现在 正在 探索 扩展 信息 架构 ， 使 其 能 够 包含 Hadoop 和 NoSQL 数 据 库 。 与 使 用 关联 数据 库 相 比 ， 这 一 技术 在 处 理 流 数 
据 源 和 半 结 构 化 数据 源 时 可 能 会 更 为 有 效 。 


你 的 公司 可 能 与 许多 其 他 组 织 一 样 ， 已 经 开始 研究 这 项 技术 的 价值 。 如 果 你 们 有 这 样 的 项 目 ， 你 需要 记录 试验 过 程 并 在 此 基 
础 上 探索 新 问题 。 举 例 来 说， 如 果 Hadoop 原 型 正在 进行 或 者 Hadoop 已 经 是 生产 环境 的 一 部 分 ， 那 么 你 可 以 探索 下 列 问题 : 


将 数据 源 导 入 数据 集群 。 

“ 加 载 于 Hadoop 集 群 的 数据 所 代表 的 历史 长 度 和 容量 。 

* 需要 加 载 到 Hadoop 集 群 中 的 其 他 数据 源 。 

“ 被 存储 的 数据 对 数据 量 的 影响 。 

:当前 和 未 来 的 计划 数据 摄取 率 。 

- Hadoop 集 群 的 计划 工作 量 (包括 MapReduce、SQL 查 询 、Solr/ 搜 索 、 预 测 分 析 、ETIL 等 ) 。 
”当前 和 未 来 计划 使 用 的 分 析 工 具 (商业 智能 、 信 息 发 现 、 搜 索 、 预 测 分 析 、ETL 等 ) 。 

“ 现 有 的 数据 处 理 能 力 以 及 所 带 来 的 商业 价值 。 

" 数据 (包括 静态 数据 和 流动 数据 ) 的 安全 问题 。 

- 集群 数据 的 可 恢复 性 和 可 用 性 。 


图 2-5 说 明了 有 多 少 具体 项 目 利用 Hadoop 来 进行 分 析 。 该 图 展示 了 一 个 零售 商店 的 Hadoop 分 析 模 式 。 其 中 ， 以 大 数据 分 
析 为 基础 的 努力 ， 被 看 作 与 之 前 存在 的 数据 库 和 它 周 围 的 基础 设施 是 完全 分 离 的 。 
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图 2-5 在 独立 的 研究 和 发 展 努 力 中 的 Hadoop 和 NoSOL 数 据 库 


在 上 述 零售 店 的 例子 中 ， 我 们 的 目标 就 是 要 更 好 地 理解 和 促进 销售 。 当 购物 者 进入 网 页 或 者 进入 实体 店 购买 商品 时 ， 各 种 数 
据 就 会 被 捕获 然后 被 Hadoop 收 集 ， 购 物 者 的 情绪 数据 也 从 社交 媒体 上 收集 于 Hadoop 中 。 这 些 流 数据 会 先进 入 NoSQL 的 数据 集 
群 (可 以 轻松 地 扩展 到 高 吞吐 量 需求 ) ， 然 后 再 进入 Hadoop 中 获得 初步 分 析 。 


这 些 来 自传 感 器 的 数据 在 物 联网 的 架构 视图 中 被 大 大 简化 ， 缺 少 了 很 多 内 容 ， 包 括 配 置 、 安 全 性 能 和 其 他 必要 服务 等 。 我 们 
要 努力 去 做 的 ， 就 是 尽量 促使 所 有 分 析 工具 以 及 各 项 流程 相互 配合 、 互 相 协作 ， 从 而 发 挥 更 大 的 作用 。 


2. 链 接 Hadoop 和 数据 仓库 的 基础 构架 


接 下 来 ,我 们 将 讨论 是 


否 需要 在 同一 时 间 查 询 和 分 析 传统 数据 仓库 和 Hadoop 集 群 中 的 数据 ， 以 及 为 了 满足 业务 需要 ， 收 集 
结合 数据 源 的 频率 等 。 了 解 这 些 


内 容 将 有 助 于 我 们 确定 未 来 最 佳 分 析 方 式 。 


例如 ， 如 果 我 们 的 业务 分 析 员 为 了 展开 业务 ， 需 要 维度 建 模 ， 那 么 我 们 要 将 有 用 的 数据 从 Hadoop 集 群 移动 到 数据 仓库 中 ， 
或 者 创造 一 个 基础 构架 ， 使 Hadoop 集 群 作为 数据 仓库 的 扩展 存储 空间 。 如 果 我 们 计划 构建 一 个 包含 Hadoop 和 数据 仓库 的 预测 
性 分 析 平 台 ， 就 要 在 Hadoop 集 群 中 完成 对 所 有 数据 的 分 析 工作 。 正 如 之 前 提 到 的 ， 我 们 将 从 商业 分 析 师 那里 ， 收 集 那 些 通过 整 
合 分 析 这 些 来 源 各 异 的 数据 而 得 到 的 潜在 商业 利益 。 


图 2-6 说 明了 Hadoop 和 NoSQL 数 据 库 是 如 何 成 为 当前 信息 架构 中 数据 仓库 的 一 部 分 的 。 因 为 我 们 会 利用 Hadoop 进 行 ETL 
人 处理， 所 以 可 以 将 企业 数据 仓库 的 直接 数据 源 映射 为 Hadoop 的 数据 源 。 下 图 同样 也 是 较为 简化 的 版 本 。 
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图 2-6 ”Hadoop 和 NoSQL 数 据 库 与 数据 仓库 基本 构架 的 链接 


引申 出 来 ， 可 能 会 出 现 关 于 应 将 数据 存储 于 什么 地 方 的 争论 。 这 些 新 数据 是 否 应 该 先 在 云 中 进行 分 析 ? 数据 是 否 应 该 被 储存 
于 包括 数据 仓库 和 Hadoop 集 群 在 内 的 内 部 基础 架构 上 ? 


数据 量 和 在 网 络 (有 线 宽 带 ) 传输 中 所 需 的 流量 将 帮助 你 确定 在 云 、 本 地 部 署 以 及 混合 模型 中 的 数据 是 否 是 最 合适 的 。 为 了 
了 解数 据 移 动量 ， 你 需要 了 解 各 种 数据 管理 系统 以 及 如 何 利用 它们 进行 数据 查询 和 分 析 。 这 些 问题 随 着 以 后 构建 信息 技术 架构 的 
展开 ， 我 们 会 再 详细 讨论 ， 到 那 时 ， 你 将 会 对 业务 用 全 有 更 深 的 了 解 。 


很 多 组 织 使 用 云 来 加 快 Hadoop、NoSQL 或 数据 仓库 的 研究 和 开发 工作 ， 尤 其 是 在 不 了 解 业 务 价值 的 情况 下 ， 考 虑 到 上 日益 增 
长 的 数据 容量 和 全 部 生产 基础 设施 的 用 户 化 要 求 ， 企 业 一 般 会 选择 自 建 基础 设施 。 


2.6 ”实时 建议 和 操作 
图 2-6 所 示 的 基础 设施 呈现 出 数据 因为 点 对 点 的 移动 所 带 来 的 时 间 延 长 ， 而 对 于 业务 遇 到 的 某 些 问题 ， 可 能 需要 实时 的 建议 
和 响应 行动 。 比 如 说 ， 你 希望 购物 者 在 进入 购物 页 面 时 就 能 看 到 你 推荐 的 产品 ， 而 不 是 已 经 离开 购物 页 面 才 看 到 推荐 的 产品 。 


实时 推荐 引擎 的 作用 就 是 在 网 络 商店 里 引导 购物 者 购买 特定 的 商品 。 在 Hadoop 集 群 或 数据 仓库 中 可 以 构建 天 于 购买 行为 的 
预测 分 析 模 型 。 构 建 模型 的 目的 在 于 对 购物 者 进行 更 巧妙 的 指引 ， 使 他 们 能 够 买 得 更 多 并 且 更 快 地 找到 想 要 的 东西 。 推 荐 引 警 中 


的 模型 会 随 着 购买 模式 的 变化 不 断 更 新 ， 也 会 不 断 完善 。 


在 配置 智能 传感器 和 控制 器 的 地 方 ， 对 及 时 行动 的 迫切 需要 或 许 表 明 有 些 规 则 的 建立 是 为 了 在 所 有 分 析 发 生前 促进 行动 。 这 
就 是 为 什么 事件 处 理 和 业务 规则 引擎 通常 被 列 为 智能 传感器 解决 方案 的 一 部 分 。 举 例 来 说 ， 如 果实 体 店 中 的 传感器 在 与 收银 员 和 
那些 由 于 感到 不 满 而 放弃 购物 的 顾客 取得 联系 时 出 现 延 迟 ， 预 先 设 定 的 规则 就 会 触发 装置 来 通知 那些 忙于 其 他 事情 的 收银 员 再 开 
一 个 新 的 收银 台 。 


图 2-7 说 明了 在 网 站 中 加 入 实时 推荐 引擎 ， 该 推荐 引擎 由 在 Hadoop 集 群 中 运行 的 数据 支撑 构建 并 根据 数据 的 变化 定期 更 
新 ， 购 物 者 的 个 人 资料 和 定位 信息 由 此 被 传 到 引擎 中 。 具 体 的 实时 建议 最 后 由 网 站 传递 给 购物 者 。 
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图 2-7 信息 构架 中 的 实时 推荐 和 事件 处 理 系统 





我 们 还 在 图 中 展示 了 实体 店 中 的 闭环 系统 和 业务 规则 。 当 购物 者 们 进入 他 们 手机 上 的 购物 appP (应 用 软件 ) 时 ， 我 们 就 开始 
监控 他 们 的 浏览 踪迹 ， 这 样 销售 人 员 就 可 以 根据 购物 者 在 网 站 上 最 近 的 浏览 信息 来 向 他 们 推荐 商品 。 


刚才 所 列 的 示意 图 带 有 一 定 的 技术 性 ， 所 以 业务 分 析 员 要 想 理解 它 可 能 是 有 些 困 难 的 。 但 是 我 们 认为 正 是 这 样 的 示意 图 ， 才 
有 助 于 业务 分 析 员 了 解 当前 基础 设施 和 数据 流 的 局 限 性 ， 并 且 可 以 帮助 他 们 寻找 当前 问题 的 解决 方案 。 这 些 示 意图 还 可 以 使 业务 
分 析 员 尽早 修改 需要 的 业务 解决 方案 。 


2.7 ”验证 提出 的 愿景 


规划 会 议 在 结束 时 往往 会 在 白板 上 绘制 当前 和 未 来 状态 的 信息 架构 图 ， 这 些 架 构图 在 最 后 都 会 被 手机 拍 下 。 有 时 这 些 图 表 也 
会 被 保存 在 从 活动 挂图 撕 下 来 的 活页 上 。 会 议 进行 时 ， 主 办 者 还 应 对 业务 线 、IT 业 高 管 层 、 架 构 师 以 及 其 他 任何 人 员 的 发 言 进行 
记录 并 作出 相应 注释 。 这 些 记录 中 可 能 会 包含 一 旦 未 来 信息 架构 部 署 好 后 ， 对 商业 决策 产生 有 利 影响 的 假设 。 


下 面 我 们 来 介绍 如 何 对 所 收集 的 信息 进行 总 结 。 首 先 ， 这 些 信息 应 该 以 报告 或 演示 的 方式 反馈 给 参加 会 议 的 人 员 ， 这 种 形式 


既 可 以 验证 主办 方 是 否 记 录 了 会 议 中 各 方 表达 的 所 有 重要 信息 ， 同 时 ， 如 果 总 结 中 有 不 清楚 的 地 方 ， 发 言 人 也 可 以 及 时 得 知 并 作 
出 相应 澄清 。 通 常情 况 下 ， 在 一 周 或 两 周 内 将 信息 报告 分 发 给 参 会 者 是 最 有 益 的 ， 因 为 这 样 可 以 加 强 在 讨论 会 议 中 形成 的 团队 合 
作 精 神 。 


在 一 些 场合 中 ， 有 人 向 我 们 提出 ， 应 该 邀请 大 量 不 同 的 受众 参加 以 总 结 前 期 规划 会 议 为 目的 的 后 续 会 议 。 这 种 情况 时 有 发 
生 ， 因 为 参 会 者 会 就 在 会 议 中 讨论 的 未 来 信息 架构 等 问题 与 别人 进行 分 享 ， 所 以 很 多 其 他 涉及 此 方面 利益 的 人 在 了 解 到 我 们 讨论 
的 内 容 以 后 也 会 产生 兴趣 。 随 着 影响 逐渐 扩大 ， 很 多 其 他 业务 领域 的 人 也 希望 能 够 参加 并 记录 他 们 的 想法 和 要 求 。 这 是 一 个 好 现 
象 ， 人 们 会 认为 这 一 项 目 越 来 越 有 价值 并 予以 更 多 资助 。 后 续 会 议 更 侧重 于 进一步 的 探索 ， 而 不 是 解读 、 验 证 前 期 工作 。 所 以 要 
想 解读 、 验 证 前 期 工作 ， 较 好 的 方法 是 提前 修订 报告 并 另行 安排 会 议 讨论 对 报告 的 验证 和 修订 问题 。 

基于 规划 会 议 所 做 的 报告 或 演示 应 包括 以 下 内 容 : 

“ 目前 的 业务 难题 ， 包 括 信息 构架 带 来 的 难题 。 

对 当前 的 信息 结构 所 做 的 描述 和 绘制 的 图 表 。 

.新兴 业务 需求 ， 业 务 模 式 变化 预期 以 及 如 何 运营 业务 。 

可 以 满足 需求 并 应 对 挑战 的 未 来 信息 架构 图 。 


通过 未 来 的 信息 架构 可 能 获得 的 商业 利益 (理想 情况 下 包括 这 些 收益 的 可 能 财务 规模 ) 。 后 续 步 骤 将 会 在 本 书 的 后 续 章 节 


我 们 注意 到 个 别 组 织 的 |T 架 构 师 想 在 收集 完 信息 后 立即 开始 详细 设计 信息 架构 的 工作 。 然 而 ， 对 于 信息 架构 ， 很 多 问题 目前 
仍然 处 于 未 知 状态 。 例 如 ， 我 们 还 不 知道 如 何 展开 运营 ， 关 键 的 绩效 指标 是 什么 ， 该 采取 怎样 的 措施 。 我 们 也 不 知道 在 各 个 阶段 
如 何 实施 解决 方案 以 及 有 没有 阶段 实施 优先 级 等 。 


虽然 对 于 如 何 寻找 业务 案例 会 有 一 些 初 步 想 法 ， 但 是 目前 为 止 ， 我 们 还 没有 一 个 可 靠 的 指导 案例 。 并 且 我 们 对 于 哪些 数据 源 
将 提供 有 效 措施 ， 哪 些 数据 反映 KPIs (关键 绩效 指标 ) 了 解 得 太 少 。 再 者 ， 我 们 还 不 能 确定 我 们 缺少 的 技能 对 于 实施 和 管理 解决 
方案 并 利用 它 有 效 地 运营 业务 有 什么 影响 。 


通过 这 一 点 我 们 得 知 ， 要 想 对 一 个 项 目 获得 充分 了 解 ， 我 们 仍 需要 更 多 的 实际 探索 和 书面 佐证 。 但 至 少 现在 ， 我 们 已 经 对 修 
改 信息 架构 的 实用 性 和 可 能 性 有 了 一 些 初步 概念 。 而 且 我 们 还 知道 应 该 去 哪里 寻找 商业 赞助 。 因 此 ， 我 们 接 下 来 要 做 的 就 是 与 业 
务 链 伙伴 合作 ， 进 一 步 发 掘 需求 。 


第 3 章 大 数据 : 有 所 为 有 所 不 为 


3.1 大 数据 分 析 最 佳 实践 


很 显然 ， 与 任何 其 他 技术 或 过 程 一 样 ， 大 数据 问题 也 有 最 佳 实践 。 在 大 多 数 情 况 下 ， 最 佳 实践 通常 来 自 多 年 的 测试 和 测量 结 
果 ， 以 此 作为 基础 ， 不 断 发 展 。 然 而 ， 如 今 的 大 数据 概念 要 相对 新 颖 ， 在 推导 相关 最 佳 实践 的 过 程 中 人 们 总 会 去 依赖 并 利用 此 前 
经 过 证 明 的 有 效 方法 。 尽 管 如 此 ， 当 前 各 种 新 的 最 佳 实践 正如 雨后春笋 般 不 断 浮现 ， 这 意味 着 我 们 仍然 可 以 从 他 人 的 错误 和 成 功 
中 吸取 经 验 教 训 并 由 此 判断 出 哪些 才 是 真正 有 效 的 方法 。 


大 数据 的 革命 性 特质 往往 会 影响 最 佳 实践 ， 因 此 今日 的 最 佳 到 明日 可 能 就 不 再 无 懈 可 击 。 也 就 是 说 ， 在 大 数据 分 析 方 面 ， 应 
该 会 存在 一 些 核心 的 成 熟 技 术 ， 它 们 能 够 经 受 住 时 间 的 检验 。 在 名 词 、 技 能 集 、 产 品 和 供应 商 不 断 推陈出新 的 情况 下 ， 大 数据 分 
析 的 世界 似乎 越发 让 人 感到 陌生 ， 但 是 经 过 实践 证 明 的 数据 管理 最 佳 实践 在 这 个 仍 属 新 兴 的 领域 中 依然 能 够 发 挥 良好 的 作用 。 


和 所 有 商业 智能 (BI) 和 /或 数据 仓库 计划 一 样 ， 除 非 已 经 充分 了 解 组 织 的 数据 管理 要 求 并 制定 好 完备 的 战略 ， 人 否则 任何 人 
都 无 法 在 大 数据 分 析 这 条 道路 上 走 得 太 远 。 大 数据 分 析 已 经 被 广泛 炒作 ， 而 各 行 各 业 的 公司 也 已 被 不 断 翻 新 的 数据 源 和 更 为 庞杂 
的 数据 量 所 淹没 。 在 没有 充分 了 解 的 情况 下 对 大 数据 领域 进行 重大 投资 并 认为 这 能 够 为 自己 的 企业 带 来 实际 性 增值 ， 这 是 该 领域 
潜在 用 户 容易 产生 的 最 大 误解 之 一 。 


获得 成 功 的 诀窍 是 从 商业 角度 看 竺 问题， 同时 不 要 过 度 天 注 技 术 ， 要 做 到 这 一 点 可 能 需要 首席 信息 官 (CIO) 、 数 据 科学 家 
和 其 他 商务 人 士 之 间 进 行 深入 的 探讨 以 确定 业务 的 目标 并 找 出 真正 有 价值 的 数据 。 在 具体 实践 中 ， 至 关 重 要 的 是 要 准确 界定 可 用 
的 数据 并 为 组 织 设计 出 资源 的 最 优 利用 方案 。 


cIO、IT 经 理 以 及 BI 和 数据 仓库 专业 人 员 需 要 检查 当前 被 保留 、 整 合 和 使 用 的 数据 并 将 其 与 正在 被 丢弃 的 数据 进行 比较 。 另 
一 个 关键 步骤 在 于 考虑 目前 尚未 触及 到 的 外 部 数据 源 中 有 哪些 可 能 对 现 有 的 资源 组 合 产生 良好 的 补充 作用 。 即 使 公司 目前 尚 不 确 
定 自己 应 在 何 时 以 何 种 方式 投入 大 数据 分 析 的 浪潮 ， 但 他 们 也 应 尽早 进行 这 种 评估 。 


数据 积累 的 量变 是 为 最 后 的 质变 做 准备 ， 即 使 一 开始 你 并 不 清楚 大 数据 的 用 途 。 上 述 过 程 的 诀窍 在 于 尽早 地 开始 数据 积累 ， 
否则 你 可 能 会 错失 机 会 ， 原 因 是 某 些 稍 纵 即 逝 的 数据 可 能 会 被 错过 ， 而 你 在 启动 大 数据 工程 后 可 能 没有 足够 的 信息 追溯 能 力 来 找 
回 这 些 资 源 。 


第 3 草 大 数据 : 有 所 为 有 所 不 为 


3.1 大 数据 分 析 最 佳 实践 


很 显然 ， 与 任何 其 他 技术 或 过 程 一 样 ， 大 数据 问题 也 有 最 佳 实践 。 在 大 多 数 情 况 下 ， 最 佳 实践 通常 来 自 多 年 的 测试 和 测量 结 
果 ， 以 此 作为 基础 ， 不 断 发 展 。 然 而 ， 如 今 的 大 数据 概念 要 相对 新 颖 ， 在 推导 相关 最 佳 实践 的 过 程 中 人 们 总 会 去 依赖 并 利用 此 前 
经 过 证 明 的 有 效 方法 。 尽 管 如 此 ， 当 前 各 种 新 的 最 佳 实践 正如 雨后春笋 般 不 断 浮现 ， 这 意味 着 我 们 仍然 可 以 从 他 人 的 错误 和 成 功 
中 吸取 经 验 教训 | 并 由 此 判断 出 哪些 才 是 真正 有 效 的 方法 。 


大 数据 的 革命 性 特质 往往 会 影响 最 佳 实践 ， 因 此 今日 的 最 佳 到 明日 可 能 就 不 再 无 懈 可 击 。 也 就 是 说 ， 在 大 数据 分 析 方 面 ， 应 
该 会 存在 一 些 核心 的 成 熟 技 术 ， 它 们 能 够 经 受 住 时 间 的 检验 。 在 名 词 、 技 能 集 、 产 品 和 供应 商 不 断 推陈出新 的 情况 下 ， 大 数据 分 
析 的 世界 似乎 越发 让 人 感到 陌生 ， 但 是 经 过 实践 证 明 的 数据 管理 最 佳 实践 在 这 个 仍 属 新 兴 的 领域 中 依然 能 够 发 挥 良好 的 作用 。 


和 所 有 商业 智能 (BI) 和 /或 数据 仓库 计划 一 样 ， 除 非 已 经 充分 了 解 组 织 的 数据 管理 要 求 并 制定 好 完备 的 战略 ， 人 否则 任何 人 
都 无 法 在 大 数据 分 析 这 条 道路 上 走 得 太 远 。 大 数据 分 析 已 经 被 广泛 炒作 ， 而 各 行 各 业 的 公司 也 已 被 不 断 翻 新 的 数据 源 和 更 为 庞杂 
的 数据 量 所 淹没 。 在 没有 充分 了 解 的 情况 下 对 大 数据 领域 进行 重大 投资 并 认为 这 能 够 为 自己 的 企业 带 来 实际 性 增值 ， 这 是 该 领域 
潜在 用 户 容易 产生 的 最 大 误解 之 一 。 


获得 成 功 的 诀窍 是 从 商业 角度 看 待 问 题 ， 同 时 不 要 过 度 天 注 技 术 ， 要 做 到 这 一 点 可 能 需要 首席 信息 官 (CIO) 、 数 据 科学 家 
和 其 他 商务 人 士 之 间 进 行 深入 的 探讨 以 确定 业务 的 目标 并 找 出 真正 有 价值 的 数据 。 在 具体 实践 中 ， 至 关 重 要 的 是 要 准确 界定 可 用 
的 数据 并 为 组 织 设 计 出 资源 的 最 优 利用 方案 。 


cIO、IT 经 理 以 及 BI 和 数据 仓库 专业 人 员 需 要 检查 当前 被 保留 、 整 合 和 使 用 的 数据 并 将 其 与 正在 被 丢弃 的 数据 进行 比较 。 另 
一 个 关键 步 又 在 于 考虑 目前 尚未 触及 到 的 外 部 数据 源 中 有 哪些 可 能 对 现 有 的 资源 组 合 产生 良好 的 补充 作用 。 即 使 公司 目前 尚 不 确 
定 自己 应 在 何 时 以 何 种 方式 投入 大 数据 分 析 的 浪潮 ， 但 他 们 也 应 尽早 进行 这 种 评估 。 


数据 积累 的 量变 是 为 最 后 的 质变 做 准备 ， 即 使 一 开始 你 并 不 清楚 大 数据 的 用 途 。 上 述 过 程 的 决 穿 在 于 尽早 地 开始 数据 积累 ， 
否则 你 可 能 会 错失 机 会 ， 原 因 是 某 些 稍 纵 即 逝 的 数据 可 能 会 被 错过 ， 而 你 在 启动 大 数据 工程 后 可 能 没有 足够 的 信息 追溯 能 力 来 找 
回 这 些 资源 。 


3.2 ”从 小 做 起 


在 大 数据 分 析 过 程 中 ， 我 们 应 该 找 出 微小 但 高 价值 的 机 会 ， 并 以 这 些 机 会 为 起 点 。 在 理想 情况 下 ， 组 织 能 够 通过 完成 这 些 较 
小 的 任务 积累 必要 的 专业 知识 ， 为 将 来 进行 大 型 的 分 析 做 好 准备 。 鉴 于 作为 分 析 目 标的 数据 源 和 信息 类 型 会 不 断 扩展 ， 同 时 相关 
公司 会 开始 创建 各 种 重要 的 分 析 模 型 以 便 更 好 地 揭示 结构 化 和 非 结构 化 数据 的 模式 和 这 两 种 数据 之 间 的 相关 性 ， 相 关公 司 必 须要 
关注 的 是 ， 要 根据 其 所 前 明 的 业务 目标 ， 找 出 那些 重要 程度 最 高 的 调查 结果 。 


必须 要 避免 的 情况 是 : 你 最 终 找到 了 一 种 可 以 确定 新 模式 和 数据 关系 的 程序 ， 但 这 些 模式 与 关系 对 于 业务 流程 却 没有 任何 帮 
助 。 上 述 情况 在 分 析 和 矩阵 中 被 称 为 死 区 ， 即 尽管 你 能 够 发 现 新 的 模式 ， 但 这 些 模式 与 待 解决 的 问题 之 间 却 没有 联系 。 


大 数据 项 目的 成 功 ， 往 往 始 于 极 具 针对 性 的 目标 和 对 量 级 较 小 的 数据 集 的 关注 。 只 有 通过 这 种 方法 ， 才 能 在 获得 项 目 成 功 后 
开发 出 真正 有 效 的 大 数据 分 析 方 法 ， 此 类 方法 的 初始 量 级 不 高 ， 但 它们 会 随 着 实践 成 长 。 这 种 模式 在 实践 中 的 效果 很 好 ， 因 为 企 
业 能 够 在 为 数据 分 析 做 准备 的 同时 ， 以 较 少 的 初期 投资 创造 价值 。 


为 实现 上 述 目标 ， 我 们 可 以 从 “微量 数据 ”开始 ( 即 获取 单独 的 数据 流 并 将 其 迁移 到 不 同 的 系统 中 ， 以 便 进 行 后 续 的 融合 处 
理 ) 。 随 着 时 间 的 推移 微量 数据 会 不 断 地 蓄积 、 增 长 并 最 终 带 来 大 数据 的 诞生 。 扩 展 能 力 将 至 关 重 要 : 随 着 所 收集 数据 的 增 
加 ， 系 统 的 规模 也 需要 不 断 扩展 以 适应 不 断 增长 的 数据 量 。 


3.3 ”关注 大 局 


利用 开源 Hadoop 技 术 和 新 兴 的 打包 分 析 工具 ， 能 够 使 经 过 SQL 培训 的 商业 分 析 员 更 加 了 解 开源 的 环境 。 最 终 ， 在 绘制 大 数 
据 分 析 路 线 图 时 ， 规 模 将 成 为 最 主要 的 影响 要 素 。 商 业 分 析 师 将 需要 规避 SQL 方法 ， 才 能 掌握 在 节点 和 集群 上 运行 的 分 布 式 平台 
的 概念 。 


此 时 ， 至 关 重 要 的 是 思考 潜在 信息 积累 的 形态 。 要 做 到 这 一 点 ， 我 们 可 以 先 计 算出 从 现在 起 的 6 个 月 内 需要 收集 多 少数 据 ， 
然后 确定 需要 多 少 台 服务 器 才能 处 理 这 些 数据 。 此 外 ， 我 们 还 必须 确保 使 用 的 软件 能 够 满足 数据 扩 展 的 需要 。 此 时 ， 有 人 可 能 会 
忽视 解决 方案 的 潜在 成 长 能 力 以 及 将 此 类 方案 投入 使 用 后 的 潜在 受 欢迎 程度 ， 但 这 种 想法 属于 严重 的 误解 。 


随 着 分 析 尺 度 的 扩展 ， 数 据 管理 的 重要 性 也 将 不 断 提 升 ， 在 这 一 点 上 ， 大 数据 与 任何 其 他 大 规模 网 络 运算 并 没有 什么 区 别 。 
信息 管理 实践 也 是 如 此 ， 作 为 曾经 在 数据 仓库 领域 的 天 键 要 素 ， 该 实践 对 于 如 今 的 大 数据 也 同样 重要 。 我 们 必须 要 记 住 的 是 ， 信 
息 是 一 种 企业 资产 ， 我 们 必须 将 其 视 为 企业 资产 加 以 对 待 。 


3.4 ”避免 最 差 实 践 


有 很 多 潜在 原因 导致 大 数据 分 析 项 目 不 能 达成 原 定 的 目标 和 期 望 。 在 某 些 情况 下 ， 学 会 “应 该 怎么 做 ”还 不 如 学 会 “不 应 该 
做 什么 ”。 这 使 我 们 能 够 形成 识别 “最 糟糕 做 法 ”的 观念 ， 这 样 你 就 可 以 避免 犯 下 与 别人 过 去 相同 的 错误 。 与 自己 犯错 相 比 ， 从 
别人 的 错误 中 学 习 要 更 为 可 取 。 需 要 关注 的 某 些 最 糟糕 的 做 法 如 下 : 


. 认为 “只 要 建成 系统 就 行 ， 问 题 会 自然 解决 ”。 很 多 组 织 都 会 犯 的 错误 是 简单 地 认为 只 要 部 署 了 数据 仓库 或 BI 系统 就 自然 
能 够 解决 关键 业务 问题 并 创造 价值 。 然 而 ， 很 多 IT、BI 和 分 析 项 目 经 理 都 在 技术 炒作 中 迷失 并 忘记 了 商业 价值 才 是 他 们 的 首要 任 
务 ， 数 据 分 析 技 术 只 是 创造 价值 的 一 种 工具 。 与 盲目 地 运营 和 部 署 不 同 ， 大 数据 分 析 的 支持 者 首先 应 该 做 的 是 确定 该 项 技术 要 达 
成 哪些 商业 目的 ， 并 依 此 来 建立 商业 案例 ， 只 有 这 时 他 们 才能 根据 手头 的 任务 来 选择 和 利用 正确 的 分 析 工 具 。 如 不 能 充分 理解 自 
己 的 业务 需求 ， 项 目 团队 最 终 很 可 能 只 是 创建 了 一 个 对 组 织 而 言 没有 价值 的 大 数据 存储 库 ， 整 个 困 队 也 会 陷入 “ 受 冷遇 ”的 元 炊 


境地 。 


: 认为 软件 可 以 解决 所 有 问题 。 构 建 分 析 系 统 ， 尤 其 是 涉及 大 数据 的 分 析 系 统 是 一 项 复杂 且 耗 费 资 源 的 工程 。 因 此 ， 许 多 组 
织 希 望 其 部 署 的 软件 能 成 为 无 所 不 能 的 魔 豆 ， 并 瞬间 解决 所 有 问题 。 人 们 都 知道 这 种 想法 并 不 现实 ， 但 在 内 心中 却 又 总 在 期 待 这 
种 情况 发 生 。 软 件 的 确 能 产生 助 益 ， 有 时 甚至 能 引起 翻天 禾 地 的 变化 。 但 大 数据 分 析 作为 一 种 工具 ， 它 的 作用 大 小 要 取决 于 正在 
分 析 的 数据 以 及 工具 使 用 者 的 分 析 技能 。 


: 不 能 理解 为 什么 要 改变 思路 。 重 复 采 用 同一 方法 并 期 望 不 同 结果 被 认为 是 发 疯 的 表现 ， 在 数据 分 析 的 世界 中 的 确 存 在 着 某 
种 形式 的 疯狂 。 人 们 往往 会 忘记 ， 仅 仅 重 复 曾 经 有 效 的 方法 而 不 考虑 情况 是 否 已 经 发 生 改 变 的 话 ， 最 终 迎 接 他 们 的 会 是 失败 。 在 
大 数据 方面 ， 某 些 组 织 总 是 认为 其 中 的 “大 ”只 是 代表 了 更 大 的 履 盖 面 和 数据 量 ， 这 种 想法 并 不 全 错 ， 但 是 很 多 大 数据 分 析 举 措 
会 涉及 非 结 构 化 和 半 结 构 化 信息 ， 在 管理 和 分 析 模 式 方面 这 些 数据 与 企业 应 用 和 数据 仓库 中 的 结构 化 数据 有 着 根本 性 的 不 同 。 由 
于 以 上 原因 ， 我 们 在 面 对 大 数据 ， 至 少 是 某 一 部 分 大 数据 时 可 能 需要 采用 新 的 方法 和 工具 来 完成 数据 的 获取 、 清 洗 、 存 储 、 江 总 


和 访问 。 


态 记 过 去 所 有 经 验 。 有 时 企业 又 会 走向 另 一 个 极端 ， 即 认为 大 数据 的 一 切 都 是 全 新 的 ， 他 们 必须 从 头 做 起 。 对 大 数据 分 析 
项 目 而 言 ， 这 种 误解 对 项 目 成 功 的 破坏 力 其 至 要 高 于 不 能 改变 思路 的 错误 。 仅 仅 是 待 分 析 的 数据 在 结构 上 有 区 别 ， 并 不 意味 着 我 
们 需要 改写 数据 管理 的 基本 规律 。 


. 不 具备 必要 的 业务 和 专业 分 析 技 能 。 技 术 万 能 论 会 带 来 的 错误 推论 是 认为 自己 只 需要 安排 IT 人 员 实施 大 数据 分 析 软 件 即 
可 。 首 先 ， 正 如 前 文 对 创造 业务 价值 的 讨论 ， 除 非 能 在 系统 设计 和 实际 运行 两 个 阶段 整合 并 履 盖 广泛 的 业务 和 行业 知识 ， 否 则 相 
应 的 大 数据 分 析 程 序 并 不 能 真正 实现 目的 。 其 次 ,很 多 组 织 都 低估 了 所 需 分 析 技 能 的 程度 。 如 果 大 数据 分 析 仅 仅 涉及 报告 构建 和 
仪表 板 ， 那 么 相关 企业 只 需 利用 其 现 有 的 BI 专业 知识 即 可 。 然 而 ， 大 数据 分 析 往 往 会 用 到 数据 挖掘 和 预测 分 析 等 更 高 级 的 过 程 ， 
这 就 需要 相关 专业 分 析 人 员 上 有 具备 统 计 、 精 算 和 其 他 高 级 技能 ， 对 于 首次 进入 高 级 分 析 领 域 的 组 织 而 言 ， 上 述 情 况 意 味 着 它们 需要 
雇用 新 的 职员 。 


:以 进行 科学 实验 的 态度 实施 项 目 。 很 多 时 候 ， 公 司 认 为 只 要 能 收集 数据 并 对 其 加 以 分 析 就 代表 自己 的 大 数据 分 析 程 序 已 经 
获得 了 成 功 。 实 际 上 ， 数 据 的 收集 和 分 析 仅仅 只 是 开始 。 要 想 通过 分 析 产 生 业 务 价值 就 必须 将 分 析 数 据 纳 入 业务 流程 ， 并 使 业务 
经 理 和 用 户 能 够 根据 调查 结果 采取 行动 ， 并 由 此 提高 组 织 的 绩效 和 业绩 。 要 真正 达成 目标 ， 相 应 分 析 程序 还 需要 包含 沟通 功能 ， 
这 样 相关 人 士 在 依据 分 析 结 果 取 得 行动 成 功 后 ， 能 提供 反馈 ， 此 后 就 可 以 基于 业务 成 绩 对 分 析 模 型 进行 深度 改良 。 


: 承诺 完成 不 切实 际 的 目标 。 许 多 大 数据 分 析 项 目 都 会 陷入 的 一 种 重大 误区 是 : 支持 者 过 度 地 夺 大 了 系统 的 部 署 速度 及 其 可 
能 带 来 的 业务 收益 。 承 诺 过 度 而 实现 不 足 会 影响 相关 企业 对 技术 的 信心 ， 这 往往 会 导致 这 些 组 织 在 很 长 时 间 内 都 不 再 愿意 利用 所 
涉及 的 技术 ， 即 使 许多 其 他 企业 已 经 利用 同等 技术 取得 成 功 也 不 例外 。 除 此 以 外 ， 一 旦 已 经 认定 自己 可 以 轻易 并 快速 地 赢得 收 


获 ， 企 业 高 管 往往 会 低估 了 所 需要 的 努力 和 专注 度 。 在 投入 的 资源 不 满足 需求 时 ， 相 关 企 业 会 发 现 收获 并 非 如 预期 那 般 简单 和 快 
速 ， 并 由 此 认定 项 目 已 经 失败 。 


常言 道 “ 干 里 之 行 ， 始 于 足下 ”， 而 创造 有 效 大 数据 分 析 程 序 的 过 程 也 符合 这 一 道理 。 然 而 ， 要 想 成 功 达 成 目标 ,我们 需 
走 的 不 只 是 一 步 。 推 行 大 数据 分 析 计 划 的 组 织 ， 需 要 强 有 力 的 执行 计划 来 确保 分 析 流 程 适合 自身 需求 。 要 想 为 大 数据 计划 做 好 准 
备 ， 选 择 出 将 要 使 用 的 技术 只 是 旅程 的 半途 。 除 了 确认 正确 的 数据 库 软件 和 分 析 工 具 以 外 ， 相 关 企 业 还 需要 落实 技术 基础 设施 ， 
真正 为 进入 下 一 步骤 做 好 准备 ， 由 此 才 可 制定 出 真切 可 行 的 战略 。 


高 效 项 目 管理 过 程 对 创建 成 功 的 大 数据 分 析 程 序 有 至 天 重要 的 作用 ， 这 一 点 也 是 不 可 忽视 的 。 为 确保 系统 的 顺利 部 署 ， 企 业 
在 实施 相关 步骤 时 可 以 参考 以 下 建议 。 


-确定 应 保留 和 应 删除 的 数据 内 容 。 就 其 本 质 而 言 ， 大 数据 分 析 项 目 需要 使 用 大 规模 的 数据 集 。 但 这 并 不 意味 着 我 们 需要 分 
析 公 司 所 有 的 数据 源 或 其 中 包含 的 所 有 信息 。 组 织 需要 找 出 在 洞察 性 分 析 时 ， 能 够 带 来 真正 价值 的 战略 性 数据 。 例 如 我 们 需要 哪 
些 信息 组 合 才能 了 解 保留 关键 客户 的 要 素 ? 或 者 需要 哪些 数据 才能 揭示 股票 市 场 交易 中 的 隐藏 模式 ? 在 规划 阶段 关注 项 目的 业务 
目标 有 助 于 组 织 进行 必要 精确 分 析 ， 在 这 些 分 析 完 成 后 相关 组 织 可 以 并 应 该 努力 找 出 需要 哪些 数据 才能 达成 上 述 业 务 目标 。 在 某 
些 情 况 下 ， 完 成 上 述 过 程 的 确 需 要 涵盖 一 切 数据 。 但 在 其 他 的 情况 下 我 们 只 需 利 用 一 部 分 的 大 数据 即 可 满足 需求 。 


` 构建 有 效 的 业务 规则 并 克服 此 类 规则 的 复杂 性 。 如 何 克 服 复杂 性 是 大 多 数 大 数据 分 析 计 划 的 关键 所 在 。 为 了 得 到 正确 的 分 
析 结 果 ， 至 关 重 要 的 是 要 在 处 理 过程 中 涵盖 以 业务 为 中 心 的 数据 所 有 者 ， 由 此 才 可 确保 能 提前 确认 所 有 必要 的 业务 规则 。 一 旦 能 
够 确认 规则 ， 技 术 人 员 就 可 以 评估 这 些 规则 所 带 来 的 复杂 度 ， 以 及 需要 付 诸 哪些 努力 才能 将 输入 的 数据 转换 为 有 相关 性 且 有 价值 
的 调查 结果 。 至 此 我 们 已 经 为 下 一 个 实施 阶段 做 好 了 准备 。 


-以 协作 方式 将 业务 规则 转换 为 相关 分 析 数 据 。 业 务 规则 只 是 开发 有 效 大 数据 分 析 应 用 程序 的 第 一 步 。 接 下 来 ，IT 或 专业 分 
析 人 员 需 要 创建 产生 必要 输出 所 需要 的 分 析 查 询 条 目 和 算法 。 但 具体 的 行动 需要 落 到 实处 。 查 询 条 目的 质量 和 准确 性 越 高 ， 操 作 
时 需要 返工 的 次 数 就 越 少 。 在 许多 项 目 中 ， 项 目 团队 和 业务 部 门 之 间 缺 乏 沟通 的 情况 会 导致 他 们 需要 不 断 地 进行 重复 。 持 续 的 沟 
通 和 协作 能 大 大 减少 分 析 开发 过 程 中 的 坎坷 。 





- 制定 维护 计划 。 除 了 最 初 的 开发 工作 ， 成 功 的 大 数据 分 析 计划 还 需要 持续 的 关注 和 更 新 。 定 期 维护 查询 条 目 和 始终 为 业务 
需求 变化 做 好 准备 是 重要 的 工作 ， 但 它们 仅 代表 管理 分 析 程序 的 一 个 方面 。 数 据 量 会 不 断 增加 ， 业 务 用 户 对 分 析 过 程 的 熟悉 程度 
也 会 不 断 提 升 ， 随 之 必然 会 出 现 更 多 的 问题 。 分 析 团队 必须 能 够 及 时 跟 进 并 满足 其 他 的 请 求 。 此 外 ， 作 为 大 数据 分 析 硬 件 和 软件 
选项 评估 过 程 的 一 部 分 ， 我 们 需要 评估 这 些 软 硬件 在 动态 商业 环境 中 能 否 适 应 迭代 开发 过 程 的 需要 。 只 有 满足 适应 不 断 变化 的 要 
求 ， 分 析 系 统 的 价值 才 不 会 随 着 时 间 的 流逝 而 流失 。 


. 考虑 到 每 一 名 用 户 。 随 着 自助 式 BI 功 能 的 热度 越 来 越 高 ， 可 以 认为 对 最 终 用 户 的 关注 已 经 成 为 了 大 数据 分 析 程序 中 的 关键 
因素 。 拥 有 可 以 处 理 大 型 数据 集 ， 同 时 具备 分 析 结构 化 和 非 结构 化 信息 的 强大 IT 基础 架构 都 是 相当 重要 的 ， 但 开发 好 用 并 且 易 用 
的 系统 也 同样 重要 ， 这 意味 着 我 们 需要 考虑 到 用 户 的 各 种 需求 。 不 同类 型 的 人 员 一 一 从 高 级 管理 人 员 到 操作 工 、 业 务 分 析 师 和 统 
会 以 不 同 的 方式 访问 大 数据 分 析 应 用 程序 并 根据 自己 的 需要 来 使 用 相关 工具 以 确保 其 项 目 整体 上 的 成 功 。 在 这 种 情况 
下 ， 必 须 提供 不 同等 级 的 互动 功能 ， 才 能 满足 用 户 的 期 望 ， 并 让 分 析 工具 熟练 程度 不 同 的 用 户 都 能 加 以 利用 。 举 例 来 说 ， 通 过 建 
立 仪 表 板 和 数据 可 视 化 处 理 ， 就 能 以 一 种 容易 理解 的 方式 向 并 不 擅长 自行 查询 大 数据 分 析 数 据 的 业务 经 理 和 工人 呈现 调查 结果 。 








计 人 员 


没有 一 种 方法 可 以 确保 大 数据 分 析 的 成 功 。 但 是 遵循 一 系列 框架 和 最 佳 做 法 (包括 本 文 概述 的 建议 举措 ) 可 以 帮助 相关 组 织 
维持 正确 的 大 数据 分 析 规 划 方 向 。 大 数据 安装 的 技术 细节 相当 繁杂 ， 我 们 需要 对 其 进行 深入 的 研究 和 考量 。 但 仅 做 到 这 些 还 不 
够 : 我 们 还 必须 考虑 技术 和 业务 方面 的 各 种 问题 ， 才 能 确保 组 织 能 通过 对 大 数据 分 析 的 投资 获得 所 期 待 的 结果 。 


3.6 ”学 会 利用 异 弟 数据 


有 人 认为 在 处 理 大 数据 时 忽略 各 种 异常 数据 是 最 好 的 做 法 ， 为 此 他 们 创建 了 复杂 的 过 滤 程 序 ， 来 舍弃 那些 异常 的 信息 。 在 处 
理 特 定 类 型 的 数据 时 ， 这 可 能 算是 较为 稳妥 的 做 法 ， 因 为 异常 往往 会 导致 结果 的 不 准确 。 但 实践 证 明 ， 在 某 些 时 候 和 某 些 特定 的 
情景 中 ， 异 常数 据 要 比 其 他 的 数据 更 有 价值 。 对 此 ， 我 们 应 该 认识 到 的 是 “在 没有 进一步 分 析 的 情况 下 ， 丢 弃 数 据 的 做 法 是 不 正 
确 的 ”。 





举例 来 说 ， 在 以 数据 加 密 为 标准 做 法 并 且 需 要 实时 进行 访问 记录 和 数据 检查 的 高 端 网 络 安全 领域 ， 识 别 并 认定 符合 数据 非特 
征 运 动 的 情况 ( 即 通 过 发 现 异常 来 检测 安全 问题 ) 是 至 关 重 要 的 步骤 。 上 述 思 想 可 以 应 用 于 从 金融 审计 到 科学 探究 再 到 检测 网 络 
威胁 等 领域 ， 在 这 些 领 域 ， 发 现 和 识别 非 正 常 现象 才 是 服务 的 关键 。 


在 大 数据 的 世界 里 ，“ 异 常数 据 ” 可 能 只 是 一 个 条 目 ， 在 数 百 万 的 数据 量 中 ， 这 一 个 条 目 可 能 并 不 值得 注意 。 但 是 ， 在 对 流 
量 、 访 问 和 数据 流 进行 分 析 时 ， 这 一 个 条 目 就 可 能 具有 无 法 估量 的 价值 ， 并 可 能 成 为 获取 证 据 的 天 键 信息 。 在 计算 机 安全 领域 ， 
发 现 异 常 具有 特别 重大 的 意义 。 但 是 很 多 数据 科学 家 都 不 愿意 为 研究 异常 处 理 而 占用 用 于 其 他 任务 的 资源 。 


事实 上 ， 异 常 现象 很 可 能 是 某 种 趋势 的 前 兆 。 以 网 上 购物 为 例 ， 许 多 购买 趋势 在 一 开始 就 是 早期 产品 使 用 者 创造 的 一 种 孤立 
异常 现象 ;但 这 些 产 品 随后 可 能 成 为 时 尚 并 最 终 成 为 顶级 的 产品 。 这 种 类 型 的 信息 一 一 即 早期 趋势 一 一 可 能 带 来 销售 周期 的 破 
与 立 。 在 这 个 方面 ,没有 任何 实例 比 华尔街 更 有 说 服 力 ， 在 这 个 市 场 中 任何 异常 的 股票 交易 都 可 能 带 来 不 可 预料 的 恐慌 和 疯狂 ， 
而 这 一 切 可 能 只 是 源 自从 一 堆 大 数据 中 发 现 的 几 个 小 事件 。 





通常 情况 下 ， 只 要 数据 集 的 规模 足够 大 ， 异 常 现象 就 总 会 随 之 出 现 。 某 些 领域 中 对 异常 价值 的 体现 更 具有 意义 ， 社 交 网 络 就 
是 其 中 之 一 ， 在 这 个 领域 有 大 量 的 帖子 、tweet 信 息 和 更 新 被 投入 大 数据 和 分 析 程 序 ， 相 关 的 企业 会 查看 客户 情绪 等 信息 并 以 平 
行 的 方式 对 比 在 众多 不 同类 型 的 时 间 序列 中 发 现 的 异常 现象 ， 其 中 所 涉及 的 思想 就 是 类 似 的 异常 模式 可 能 会 出 现在 不 同 的 维度 
中 。 


零售 购物 便 是 其 中 的 一 个 典型 案例 。 某 些 人 群 可 能 会 在 一 年 中 相对 固定 地 在 Safeway、Trader Joe” s 或 Whole Foods 购 买 
生活 用 品 ， 但 在 年 终 他 们 会 前 往 百 思 买 和 Toys“R” Us 进行 假日 购物 并 引致 相关 商户 年 终 预 期 销售 量 的 增长 。 而 苹果 之 类 的 公司 
则 可 能 在 一 年 中 的 大 部 分 时 间 均 维持 较为 平均 的 表现 ， 但 一 旦 新 的 手机 产品 发 布 ， 它 们 在 全 球 的 客户 总 会 不 约 而 同 地 为 了 这 一 金 
属 与 玻璃 构成 的 工艺 品 而 甘愿 排队 采购 。 


在 需要 与 其 他 数据 元 素 区 分 开 来 的 重要 数据 中 ， 上 述 信息 就 如 海底 针 一 般 的 人 存在。 我 们 可 以 看 出 ， 在 一 年 中 ， 苹 果 专 卖 店 有 
约 300 天 在 临时 购买 模式 (或 利润 率 ) 方面 都 与 典型 的 电子 产品 零售 商 均 没有 什么 区 别 ， 但 是 一 旦 发 生 某 个 能 引发 两 个 或 三 个 年 
度 大 事件 的 异常 情况 (例如 新 产品 发 布 ) ， 这 个 异常 就 成 为 了 苹果 商店 和 其 他 电子 零售 商 之 间 的 最 大 区 别 。 为 了 能 专注 于 真正 具 
有 特异 性 的 事件 ， 我 们 可 以 使 用 各 行业 中 常见 的 趋势 来 抵消 可 以 预期 的 季节 性 变化 。 


在 Twitter 数据 方面 ， 不 同 维度 之 间 通 常 有 很 大 的 差异 。 哈 希 标签 通常 与 短暂 或 不 规则 现象 相关 ， 与 之 相 比 某 个 大 国 的 用 户 
所 发 布 的 大 量 tweet 信 息 则 具有 规律 性 。 由 于 在 这 种 维度 内 部 相似 性 更 高 的 情况 ， 我 们 应 该 对 每 个 维度 进行 分 开 处 理 。 按 维度 使 
用 算法 有 助 于 在 标签 和 用 户 名 (而 非 位 置 和 时 区 ) 成 为 最 主要 的 异常 来 源 的 情况 下 做 出 判断 ， 因 为 前 述 情况 表明 相关 各 和 群 组 中 的 
项 目 之 间 几 乎 没有 任何 相似 性 。 


鉴于 异常 的 数量 巨大 ， 找 出 其 中 的 意义 是 一 项 极为 艰巨 的 任务 ， 这 也 导致 了 以 下 问题 : 是 什么 导致 了 正常 的 流量 中 出 现 异 常 
暴 增 的 情况 ”有 哪些 领域 与 此 相关 ? 这 是 否 与 URL 缩 短 器 和 Twitter 直播 视频 流 服务 有 关 ? 按照 异常 情况 的 多 少 来 排序 的 看 法 不 
够 精细 且 有 诸多 限制 ， 异 常 之 间 的 联系 通常 存在 于 维度 之 中 以 及 各 维度 之 间 的 区 域 。 各 种 算法 可 以 共同 产生 强大 的 协同 效应 ,但 
我 们 可 能 需要 采用 某 种 聚 类 过 程 才能 发 现 其 中 的 规律 。 


3.7 ”速度 与 精度 的 抉择 


以 往 的 大 数据 分 析 通 常 需要 在 性 能 和 精度 之 间 进 行 折 中 。 造 成 这 种 情况 的 原因 是 当时 的 技术 往往 需要 几 个 小 时 或 几 天 的 时 间 
来 运行 相应 的 算法 ， 分 析 大 规模 的 数据 集 。 采 用 了 集群 处 理 的 Hadoop 解 决 了 部 分 的 存在 问题 ， 同 时 其 他 可 以 增强 性 能 的 技术 也 
已 经 开发 完成 。 但 是 ， 对 于 大 多 数 普通 组 织 而 言 ， 实 时 的 大 数据 分 析 还 只 是 一 个 梦想 ， 这 主要 由 于 此 类 组 织 没 有 足够 的 预算 扩展 
自己 的 存储 和 处 理 能 力 ， 而 大 数据 对 这 两 种 能 力 则 有 着 近乎 无 限 的 需求 。 


上 述 约束 所 带 来 的 结果 就 是 ， 要 想 快 速 地 获得 结果 就 必须 缩小 数据 分 析 的 范围 ， 这 可 能 会 导致 结果 准确 度 的 降低 。 而 追求 精 
度 的 话 又 不 得 不 选择 规模 更 大 的 数据 集 并 投入 更 多 的 处 理 时 间 。 


随 着 技术 的 发 展 和 创新 ， 选 择 的 空间 也 在 不 断 扩大 。 目 前 行业 正在 使 用 内 存 中 处 理 技术 来 解决 速度 与 精度 无 法 共存 的 问题 。 
该 方法 的 原理 是 将 待 处 理 的 数据 存 入 易 失 性 存储 器 而 不 是 硬盘 。 如 果 使 用 普通 的 物理 磁盘 驱动 器 ， 我 们 需要 读 写 磁盘 中 的 所 有 输 
入 和 输出 数据 ， 与 之 相 比 在 高 速 缓存 中 加 载 数据 集 并 直接 对 其 应 用 算法 可 以 节省 很 多 时 间 。 


3.8 内存 计算 


各 种 组 织 开始 认识 到 分 析 数 据 的 价值 ， 并 在 努力 探寻 进一步 提高 该 价值 的 方法 。 对 于 许多 人 来 说 ， 获 得 更 高 价值 的 途径 就 是 
是 高 处 理 的 速度 。 发 现 趋势 并 应 用 算法 来 处 理 信息 以 形成 附加 价值 ， 但 前 提 是 该 分 析 可 以 实时 产生 结果 ，。 


然而 ， 磁 盘存 储 的 群集 和 广域网 连接 的 延迟 使 得 通过 BI 解决 方案 很 难 实时 取得 结果 。 这 样 问题 就 在 于 实时 处 理 所 产 生 的 价值 
能 否 抵消 为 追求 更 快 技术 速度 而 付出 的 额外 费用 。 要 找到 这 个 问题 的 答案 就 必须 确认 实时 处 理 的 最 终 目标 是 什么 ， 是 为 某 个 特定 
业务 流程 加 快 结果 生成 速度 ? 满足 零售 交易 的 需求 ? 还 是 获得 竞争 优势 ? 


尽管 原因 有 很 多 ， 但 最 终 价值 的 多 少 还 是 要 取决 于 获得 更 快 处 理 技术 在 价格 方面 的 可 行 性 。 而 内 存 计 算 正 符合 这 一 需求 。 此 
外 还 有 很 多 其 他 因素 也 在 推动 内 存 计 算 技术 的 采用 。 举 例 来 说 ，《 经 济 学 家 》 在 最 近 的 一 项 研究 中 进行 估算 后 得 出 ， 人 类 在 
2005 年 创造 的 信息 总 量 约 为 150x260 位 元 组 ， 而 到 了 2011 年 前 述 本 已 非常 庞大 的 数额 已 经 猛 增 到 了 超过 1200x260 位 元 组 。 


此 外 ， 据 研究 公司 IDC (国际 数据 公司 ) 估计 ， 数 字 内 容 的 总 量 每 18 个 月 就 会 翻 一 番 。 而 相关 非 结 构 化 数据 的 增长 使 得 数据 
处 理 的 复杂 程度 又 进一步 提升 。 事 实 上 ， 研 究 机 构 Gartner 预 计 有 高 达 80% 的 企业 数据 都 是 非 结构 化 的 信息 数据 ， 其 中 涵盖 了 来 
自传 统 和 非 传统 来 源 的 数据 。 


在 选择 是 否 使 用 内 存 计算 时 ， 数 据 类 型 、 数 据 量 和 数据 访问 速度 都 是 影响 决策 的 因素 。 然 而 ， 面 对 内 存 中 处 理 能 够 为 企业 带 
来 的 价值 ， 上 述 因素 估计 也 无 法 阻挡 高 级 内 存 中 处 理解 决 方案 到 来 的 潮流 。 


要 理解 内 存 计算 在 实际 应 用 中 的 优势 ， 我 们 必须 审视 迄今 为 止 的 大 数据 处 理 方式 并 了 解 当前 对 计算 能 力 的 物理 限制 ， 而 后 者 
要 取决 于 访问 关系 数据 库 中 的 数据 以 及 处 理 指令 和 所 有 其 他 大 型 数据 集 处 理 所 需 元 素 的 速度 。 


使 用 基于 磁盘 的 处 理 意 味 着 涉及 多 个 数据 集 或 算法 搜索 处 理 的 复杂 计算 不 可 能 实时 进行 。 数 据 科 学 家 必须 要 等 待 几 个 小 时 到 
几 天 才能 获得 有 意义 的 结果 ， 对 于 讲求 高 效 的 业务 流程 和 决策 而 言 显然 不 是 最 佳 的 解决 方案 。 


如 今 的 企业 需要 以 更 快 的 速度 获得 结果 以 便 以 更 快 的 速度 进行 决策 ， 同 时 它们 还 可 以 将 其 余 工具 配合 使 用 以 更 好 地 进行 信息 
的 访问 、 分 析 、 管 理 和 共享 。 所 有 这 些 都 可 为 大 数据 带 来 更 多 的 价值 。 


内 存 计 算 的 使 用 提升 了 分 析 的 速度 并 最 终 带 来 增值 ， 相 关 技 术 价 格 的 下 降 会 使 这 种 增值 更 加 明显 。 内 存 系 统 的 销售 范围 和 每 
美元 容量 在 过 去 数 年 中 一 直 在 上 升 ， 存 储 和 处 理 大 量 数据 的 成 本 也 因此 得 到 了 重新 定义 。 


在 价格 下 降 和 容量 增加 之 后 ， 现 在 企业 已 经 可 以 将 主 数据 库存 储 在 硅 基 的 主 存储 器 中 ， 这 带 来 了 指数 级 的 性 能 提升 并 使 全 新 
应 用 程序 的 开发 成 为 可 能 。 而 物理 硬盘 驱动 器 限制 处 理 速 度 的 时 代 也 将 彻底 结束 。 


在 业务 决策 者 可 以 实时 获得 信息 和 分 析 结 果 的 情况 下 ， 人 们 能 够 以 之 前 无 法 想象 的 方式 获得 新 的 见解 并 执行 业务 流程 。 内 存 
计算 在 大 数据 集 领 域 的 应 用 ， 代 表 了 处 理 BI 和 业务 分 析 的 !T 作 业 模 式 正 在 发 生 关 键 性 的 变革 。 


内 存 计 算 可 以 创造 一 个 业务 管理 的 新 时 代 ， 相 关 的 管理 者 将 能 够 对 复杂 的 数据 进行 实时 分 析 ， 并 作出 决策 ， 这 种 方法 的 主要 
优点 如 下 : 


* 数据 处 理 的 多 重 改 进 提高 了 数据 处 理 的 速度 ， 扩 大 了 数据 处 理 的 容量 ， 相 对 于 过 去 ， 性 能 有 了 数 百倍 的 提升 。 
. 内 存 计算 可 应 付 迅 速 扩展 的 信息 量 ， 提 供 比 传统 物理 磁盘 存储 快 数 千 们 的 访问 速度 。 
* 对 比 基 于 硬盘 的 处 理 方 法 ， 内 存 计算 在 具有 更 好 的 性 价 比 (可 以 抵消 总 成 本 的 上 升 ) 的 同时 还 具有 实时 分 析 这 一 大 优势 。 


* 近年 来 中 央 处 理 单元 和 存储 器 的 成 本 显著 降低 ， 再 结合 多 核 和 刀片 架构 可 以 在 实现 数据 操作 现代 化 的 同时 提供 可 测量 的 结 


利用 内 存 计算 我 们 得 以 将 分 析 过 程 从 成 组 硬盘 驱动 器 和 独立 CPU 转移 至 可 以 实时 处 理 所 有 的 日 常事 务 、 更 新 以 及 分 析 请 求 
的 单一 综合 数据 库 ， 由 此 也 得 以 产生 包括 上 述 几 点 在 内 的 诸多 优势 。 


内 存 计 算 技术 使 我 们 可 以 在 服务 器 的 主 内 存 计算 大 量 交 易 数据 并 通过 此 类 交易 分 析 实 时 获得 结果 。 


由 于 内 存 计 算 允 许 直接 访问 内 存 中 的 数据 ， 获 得 查询 结果 的 速度 要 远 远 高 于 传统 磁盘 仓库 方法 。 此 外 ， 更 新 数据 库 所 需 的 时 
间 也 显著 减少 ， 同 时 系统 还 能 一 次 处 理 更 多 的 查询 请 求 。 


由 于 流程 速度 、 查 询 质量 和 业务 洞察 力 方面 的 巨大 改进 ， 内 存 数据 库 管 理 系统 的 性 能 预期 要 比 传统 上 基于 磁盘 的 模型 提升 
10 到 20 倍 。 


尽管 构成 内 人 存 计 算 的 元 素 早已 存在 ， 但 直到 现在 ， 它 们 才 达 到 可 以 普遍 使 用 的 程度 。 近 年 来 的 硬件 改善 和 软件 创新 使 得 当今 
的 内 存 计 算 能 够 在 几 秒 钟 内 对 大 量 的 数据 进行 筛选 、 关 联 和 更 新 。 主 存储 器 、 多 核 处 理 和 数据 管理 的 技术 进步 共同 带 来 了 性 能 
的 大 幅 进步 。 


内 存 计算 可 以 为 众多 领域 带 来 显著 增益 ， 其 中 最 重要 的 是 成 本 节约 、 效 率 提升 以 及 改善 决策 的 可 视 化 速度 提升 。 


不 同 规模 和 行业 的 企业 都 可 以 通过 内 存 计 算 带 来 的 成 本 节约 中 受益 。 目 前 大 多 数 公司 IT 预 算 的 25% 以 上 都 被 用 于 数据 库 管 
理 。 内 存 计 算数 据 库 所 采用 的 硬件 系统 在 能 耗 上 要 远 优 于 传统 的 数据 库 管 理 系统 ， 这 可 以 大 大 降低 硬件 和 维护 成 本 。 


内 存 计 算数 据 库 还 能 减轻 公司 的 整体 IT 负 担 并 释放 以 前 需要 用 于 响应 报告 要 求 的 资源 。 由 于 作为 依据 的 技术 已 经 成 熟 ， 内 存 
计算 解决 方案 可 以 无 中 断 的 方式 获得 实现 ， 这 样 相关 公司 可 以 轻松 并 快速 地 恢复 运营 。 


任何 在 经 营 上 依赖 频繁 数据 更 新 的 公司 都 能 够 借助 内 存 计算 技术 实现 高 效 的 运转 。 转 向 内 存 计 算 使 相关 公司 能 够 从 其 [架构 
中 移 除 系统 所 需 的 一 整个 技术 层级 并 由 此 降低 了 系统 的 复杂 性 和 基础 设施 需求 。 上 述 简化 使 得 几乎 实时 的 数据 检索 成 为 可 能 ， 所 
有 业务 团队 的 效率 也 将 因此 得 以 提升 。 


利用 内 存 计算 ， 任 何 商业 用 户 都 可 以 轻易 地 挖掘 出 便于 各 部 门 调用 的 BI 子 集 。 工 作 组 可 以 在 中 央 数 据 仓库 承载 工作 量 不 受 影 
响 的 情况 下 自主 作业 。 但 也 许 最 为 关键 的 改进 在 于 业务 用 户 不 再 需要 | 支持 就 可 以 洞悉 业务 数据 的 意义 。 


上 述 性 能 提升 还 使 商业 用 户 在 旅途 中 能 够 通过 自己 的 移动 设备 检索 更 多 有 用 的 信息 。 随 着 越 来 越 多 的 企业 开始 将 移动 技术 融 
入 业务 ， 上 述 功能 的 重要 性 正在 不 断 提升 。 


通过 以 上 几 点 可 以 明显 看 出 ， 内 存 计算 的 出 现 使 组 织 不 再 需要 局 限于 在 数据 仓库 中 划分 的 数据 子 集 ， 他 们 能 够 以 更 为 全 面 的 
方式 编译 其 业务 数据 。 


普 助 上 述 数 据 库 可 视 性 方面 的 改良 ， 企 业 能 够 从 事后 分 析 (被 动 ) 转变 为 实时 决策 (主动 ) ， 并 在 随后 创建 基于 预测 而 非 响 
应 的 业务 模型 。 企 业 可 以 从 一 开始 就 将 易 用 的 分 析 解 决 方案 与 分 析 平 台 配合 使 用 并 由 此 产生 更 多 的 价值 。 通 过 上 述 方 法 ， 即 使 没 
有 多 少 专 业 知 识 的 公司 人 员 也 可 以 构建 查询 条 目 和 仪表 板 ， 由 此 又 可 能 创造 出 很 多 内 容 方 面 的 专家 ， 他 们 无 需 外 部 支持 就 能 自主 
提升 行动 的 积极 性 。 


对 企业 而 言 ， 内 存 计算 的 另 一 优势 在 于 这 种 技术 能 带 来 信息 特异 性 的 提升 ， 由 此 我 们 可 以 根据 客户 和 企业 用 户 的 个 人 需求 对 
数据 元 素 进 行 定 制 。 这 样 具体 的 部 门 或 业务 线 就 可 以 自主 处 理 具体 需求 ， 由 此 产生 的 结果 可 以 惠及 管理 链 的 上 游 和 下 游 并 为 客户 
主管 、 供 应 链 管 理 和 财务 运营 带 来 影响 。 


利用 内 存 计 算 技术 ， 客 户 团队 可 以 从 几乎 任何 位 置 (包括 办 公 或 旅行 位 置 以 及 携带 的 移动 设备 ) 快速 轻松 地 组 合 不 同 的 数据 
集 并 用 其 分 析 客户 过 去 和 当前 的 业务 状况 。 商 业 用 户 可 以 使 用 最 新 的 信息 直接 与 客户 进行 交互 ; 在 由 此 创建 的 交互 场景 中 业务 用 
户 可 以 直接 与 数据 交互 。 通 过 实时 的 数据 获取 ， 业 务 用 户 能 够 更 加 了 解 相关 情况 并 依 此 来 开展 销售 和 营销 活动 。 而 销售 团队 也 可 
即时 访问 他 们 需要 的 信息 ， 其 掌握 客户 情况 的 能 力 将 得 到 全 面 的 提升 ， 由 此 可 实现 更 为 高 效 的 上 行 和 交叉 销售 ， 并 最 大 限度 地 提 
高 收入 增长 速度 。 


在 基于 磁盘 的 传统 系统 中 ， 数 据 的 处 理 通 常 需要 在 夜间 进行 ， 这 可 能 导致 企业 无 法 及 时 对 重要 的 供应 警报 做 出 反应 。 内 存 计 
算 技术 完全 解决 了 这 个 问题 ， 因 为 该 技术 使 企业 能 够 充分 掌握 其 供应 链 在 每 一 秒 钟 的 变化 。 借 助 上 述 实 时 洞察 的 能 力 ， 相 关 企业 
能 够 及 时 对 不 断 变化 的 业务 条 件 做 出 反应 。 举 例 来 说 ， 相 关 企业 可 以 创建 特定 产品 预 仓 量 预警 和 其 他 警报 并 在 发 生 问题 时 从 容 应 
对 。 


对 于 财务 总 监 来 说， 日 益 增长 的 数据 量 、 数 据 处 理 不 够 迅速 、 分 析 延 后 和 数据 响应 速度 慢 都 会 带 来 挑战 。 财 务 总 监 往往 只 有 
几 天 而 非 几 个 月 、 几 个 季度 的 时 间 来 应 对 这 些 挑战 。 这 可 能 使 各 方面 出 现 延 迟 ， 而 在 每 个 财 季 结束 时 ， 这 种 情况 愈加 明显 。 然 
而 ， 内 存 计算 、 大 容量 数据 分 析 和 灵活 的 建 模 环境 可 以 加 快 财政 季度 结束 阶段 的 处 理 速 度 ， 并 在 更 长 的 期 限 内 使 更 多 的 详细 财务 
数据 透明 化 。 


从 消费 产品 和 零售 到 制造 业 和 金融 服务 ， 任 何 行业 的 企业 都 能 借助 内 存 计 算 提 升 运营 效率 。 消 费 品 公司 可 以 使 用 内 存 计 算 来 
管理 自己 的 供应 商 、 跟 踪 和 追踪 产品 、 管 理 促销 互动 并 提供 支持 ， 以 更 好 地 遵守 环境 保护 局 的 标准 并 对 有 缺陷 和 不 合格 的 产品 进 
行 分 析 。 


零售 公司 可 以 同时 管理 多 个 地 点 的 商店 运营 ， 分 析 销 售 点 的 情况 ， 执 行 多 渠道 定价 分 析 并 跟踪 损坏 、 污 染 和 退回 的 产品 。 制 
造 企业 可 以 使 用 内 存 计 算 保证 运营 绩效 管理 ， 进 行 生产 和 维护 分 析 并 开展 实时 资产 利用 研究 。 金 融 服 务 公 司 可 以 进行 对 冲 基金 交 
易 分 析 ， 具 体 包括 管理 客户 对 货币 、 股 票 、 衍 生 工具 和 其 他 票据 的 风险 敞 口 。 借 助 通过 内 存 计算 获得 的 信息 ， 上 述 企业 可 以 实时 
管理 系统 风险 并 根据 市 场 交 易 风险 提交 报告 。 


随 着 大 数据 分 析 的 普及 ， 内 存 计 算 将 会 成 为 很 多 企业 在 寻求 竞争 优势 过 程 中 的 主要 依靠 。 


第 二 篇 。 大 数据 工具 和 技术 


第 4 章 “分布 式 世界 中 的 设计 


软件 设计 有 两 种 方法 : 一 种 是 简单 到 明显 没有 缺陷 ; 另 一 种 是 复杂 到 缺陷 不 那么 明显 。 
一 一 C.A.R.Hoare，1980 年 ACM 图 灵 奖 获得 者 


谷歌 搜索 是 如 何 工作 的 ? 你 的 Facebook 信 息 流 是 如 何 剧 夜 不 停 保持 更 新 的 ? 亚马逊 是 如 何 做 到 扫描 不 断 增 长 的 商品 目录 ， 
然后 告诉 你 购买 这 个 商品 的 人 也 买 了 袜子 的 ? 这 是 魔法 吗 ? 不 ,这 就 是 分 布 式 计算 。 


本 章 主 要 是 对 分 布 式 计算 技术 的 一 个 概览 。 这 些 技术 也 被 所 有 大 型 Web 站 点 使 用 ， 用 于 实现 它们 对 系统 容量 、 规 模 、 速 度 
和 可 靠 性 的 要 求 。 


分 布 式 计算 是 构建 大 型 系统 的 艺术 ， 它 将 工作 划分 到 许多 机 器 上 。 在 传统 计算 系统 中 ， 单 个 计算 机 运行 提供 服务 的 软件 ， 而 
在 客户 端 / 服 务 器 计算 架构 中 ， 许 多 机 器 远程 访问 集中 式 服务 。 分 布 式 计算 与 这 两 种 模式 都 不 同 ， 通 常 有 数 百 或 数 干 台 机 器 一 起 
工作 以 提供 更 大 的 服务 。 


分 布 式 计算 在 许多 方面 不 同 于 传统 计算 。 这 些 差异 中 的 大 多 数 是 源 于 系统 本 身 的 大 小 。 这 里 面 会 涉及 成 百 上 干 台 计 算 机 ， 可 
以 服务 数 百 万 用 户 ， 可 以 处 理 数 十 亿 甚 至 数 万 亿 的 查询 。 


术语 
服务 器 (server) : 提供 功能 或 应 用 程序 编程 接口 (API) 的 软件 。 (不 是 硬件 。) 
服务 (service) : 由 许多 服务 器 组 成 的 用 户 可 见 系统 或 产品 。 
机 器 (machine) : 虚拟 或 物理 机 器 。 
qdps (每 秒 查询 数 ) : 通常 指 每 秒 接收 到 的 网 页 访问 或 API 调 用 次 数 。 
流量 (traffic) : 用 于 查询 、API 调 用 或 发 送 到 服务 器 的 其 他 请 求 的 通用 术语 。 


Petformant: 性 能 符合 (达到 或 超过 ) 设计 要 求 的 系统 ， 是 一 个 合并 了 “性 能 ” (performance) 和 “符合 ” (conformant) 的 


新 词 。 
应 用 程序 编程 接口 (API) : 管理 一 个 服务 器 如 何 与 另 一 个 服务 器 通信 的 协议 。 


速度 是 很 重要 的 因素 ,快速 响应 性 是 服务 的 重要 竞争 优势 。 如 果 没 有 在 200 ms 或 更 短 的 时 间 内 收 到 响应 ， 用 户 会 认为 这 个 
网 站 很 慢 。 当 网 络 延 迟 占用 了 大 部 分 时 间 之 后 ， 服 务 只 剩 下 很 少时 间 来 泻 染 页 面 本 身 。 


在 分 布 式 系统 中 ， 故 障 是 很 正常 的 事情 。 硬 件 故 障 对 于 单 台 服务 器 虽然 是 小 概率 事件 ， 但 是 对 于 数 干 台 机 器 的 场景 ， 就 会 变 
得 很 常见 。 因 此 ， 需 要 假定 故障 总 是 会 发 生 的 ， 把 失败 看 成 是 工作 场景 里 面 不 可 避免 的 一 部 分 ， 要 围绕 故障 来 进行 设计 ， 使 用 软 
件 来 预测 故障 的 发 生 。 


由 于 分 布 式 系统 的 规模 庞大 ， 操 作 必 须 自动 化 。 手 动 执行 涉及 成 百 上 干 台 机 器 的 任务 是 不 可 思议 的 。 因 此 自动 化 对 于 软件 的 
准备 和 部 署 、 常 规 操作 和 故障 处 理 至 关 重 要 。 


第 二 篇 。 大 数据 工具 和 技术 


第 4 章 ”分布 式 世界 中 的 设计 


软件 设计 有 两 种 方法 : 一 种 是 简单 到 明显 没有 缺陷 ; 另 一 种 是 复杂 到 缺陷 不 那么 明显 。 
一 一 C.A.R.Hoare，1980 年 ACM 图 灵 奖 获得 者 


谷歌 搜索 是 如 何 工作 的 ? 你 的 Facebook 信 息 流 是 如 何 剧 夜 不 停 保持 更 新 的 ? 亚马逊 是 如 何 做 到 扫描 不 断 增 长 的 商品 目录 ， 
然后 告诉 你 购买 这 个 商品 的 人 也 买 了 袜子 的 ? 这 是 魔法 吗 ? 不 ,这 就 是 分 布 式 计算 。 


本 章 主 要 是 对 分 布 式 计算 技术 的 一 个 概览 。 这 些 技术 也 被 所 有 大 型 Web 站 点 使 用 ， 用 于 实现 它们 对 系统 容量 、 规 模 、 速 度 
和 可 靠 性 的 要 求 。 


分 布 式 计算 是 构建 大 型 系统 的 艺术 ， 它 将 工作 划分 到 许多 机 器 上 。 在 传统 计算 系统 中 ， 单 个 计算 机 运行 提供 服务 的 软件 ， 而 
在 客户 端 / 服 务 器 计算 架构 中 ， 许 多 机 器 远程 访问 集中 式 服务 。 分 布 式 计算 与 这 两 种 模式 都 不 同 ， 通 常 有 数 百 或 数 干 台 机 器 一 起 
工作 以 提供 更 大 的 服务 。 


分 布 式 计算 在 许多 方面 不 同 于 传统 计算 。 这 些 差异 中 的 大 多 数 是 源 于 系统 本 身 的 大 小 。 这 里 面 会 涉及 成 百 上 干 台 计算 机 ， 可 
以 服务 数 百 万 用 户 ， 可 以 处 理 数 十 亿 甚 至 数 万 亿 的 查询 。 


术语 
服务 器 (server) : 提供 功能 或 应 用 程序 编程 接口 (API) 的 软件 。 (不 是 硬件 。) 
服务 (service) : 由 许多 服务 器 组 成 的 用 户 可 见 系 统 或 产品 。 
机 器 (machine) : 虚拟 或 物理 机 器 。 
qdps 〈 每 秒 查询 数 ) : 通常 指 每 秒 接收 到 的 网 页 访问 或 API 调 用 次 数 。 
流量 (traffic) : 用 于 查询 、API 调 用 或 发 送 到 服务 器 的 其 他 请 求 的 通用 术语 。 


petformant: 性 能 符合 (达到 或 超过 ) 设计 要 求 的 系统 ， 是 一 个 合并 了 “性 能 ” (performance) 和 “符合 ” (conformant) 的 


新 词 。 


应 用 程序 编程 接口 (API) : 管理 一 个 服务 器 如 何 与 另 一 个 服务 器 通信 的 协议 。 


速度 是 很 重要 的 因素 ， 快 速 响应 性 是 服务 的 重要 竞争 优势 。 如 果 没 有 在 200 ms 或 更 短 的 时 间 内 收 到 响应 ， 用 户 会 认为 这 个 
网 站 很 慢 。 当 网 络 延 迟 占用 了 大 部 分 时 间 之 后 ， 服 务 只 剩 下 很 少时 间 来 泻 染 页 面 本 身 。 


在 分 布 式 系统 中 ， 故 障 是 很 正常 的 事情 。 硬 件 故 障 对 于 单 台 服务 器 虽然 是 小 概率 事件 ， 但 是 对 于 数 干 台 机 器 的 场景 ， 就 会 变 
得 很 常见 。 因 此 ， 需 要 假定 故障 总 是 会 发 生 的 ， 把 失败 看 成 是 工作 场景 里 面 不 可 避免 的 一 部 分 ， 要 围绕 故障 来 进行 设计 ， 使 用 软 
件 来 预测 故障 的 发 生 。 


由 于 分 布 式 系 统 的 规模 庞大 ， 操 作 必 须 自动 化 。 手 动 执行 涉及 成 百 上 干 台 机 器 的 任务 是 不 可 思议 的 。 因 此 自动 化 对 于 软件 的 
准备 和 部 署 、 常 规 操作 和 故障 处 理 至 关 重 要 。 


4.1 可 见 性 


要 管理 大 型 分 布 式 系统 ， 必 须 具 有 系统 的 可 见 性 。 需 要 具有 检查 内 部 状态 ( 称 之 为 内 省 ，introspection) 的 能 力 ， 才 能 操 
作 、 调 试 、 调 整 和 修复 大 型 系统 。 


在 传统 的 系统 中 ， 可 以 想象 有 一 位 工程 师 ， 他 对 系统 有 足够 的 了 解 ， 能 够 关注 所 有 关键 组 件 ， 或 者 基于 经 验 就 能 知道 哪里 有 
错误 。 在 大 型 系统 中 ， 必 须 设 计 能 够 提取 信息 并 使 其 可 见 的 系统 ， 这 样 才能 主动 创建 可 见 性 的 等 级 。 没 有 人 或 团队 可 以 基于 人 工 
的 方式 长 期 关注 系统 中 的 每 个 部 分 。 


因此 ， 分 布 式 系统 需要 各 个 组 件 能 生成 详细 的 日 志 ， 以 描述 系统 中 发 生 的 事情 。 这 些 日 志 需 要 被 聚合 到 一 个 中 央 位 置 以 进行 
收集 、 存 储 和 和 分析。 系统 可 以 记录 很 宏观 的 信息 ， 比 如 用 户 的 每 一 次 购买 、 每 次 Web 碍 询 或 API 调 用 ; 系统 还 可 以 记录 很 细节 的 
舍 息 ， 比 如 在 关键 代码 段 中 的 每 个 函数 调用 的 参数 。 


系统 应 提供 指标 来 计量 我 们 感 兴趣 的 事件 ， 比 如 特定 API 被 调用 的 次 数 ， 并 使 这 些 指标 可 被 访问 。 


在 许多 情况 下 ， 可 以 使 用 特定 的 URL 来 查看 这 些 内 部 状态 。 例 如 ，Apache HTTP Web 服 务 器 具有 “服务 器 状态 ” 页面 


(http://www.example.com/server-status/) 。 

此 外 ， 分 布 式 系统 的 组 件 通常 会 评估 自己 的 健康 程度 ， 并 使 信息 对 外 界 可 见 。 比 如 ， 某 个 组 件 会 向 外 暴露 一 个 URL， 通 过 该 
URL 可 以 展示 系统 是 否 已 经 准备 好 接收 新 请 求 (OK) ; 反之 ， 在 系统 不 想 接收 新 的 请 求 时 ， 通 过 该 HRL 会 输出 除 字符 “OK'” 之 
外 的 别 的 东西 (包括 根本 没有 响应 ) 。 负 载 均衡 器 使 用 此 信息 来 确定 服务 器 是 否 健康 ， 是 否 已 准备 好 接收 流量 。 当 服务 器 正在 启 
动 并 仍 在 初始 化 时 ， 或 者 正在 关闭 不 再 接收 新 请 求 (但 可 以 处 理 仍 在 运行 中 的 任何 请 求 ) 时 ， 服 务 器 都 会 发 送 否 定 响应 。 


4.2 ”保持 简单 的 重要 性 
重要 的 是 在 保持 尽 可 能 简单 设计 的 同时 仍然 能 够 满足 服务 的 需要 。 随 着 时 间 的 推移 ， 系 统 变 得 越 来 越 复杂 ， 基 于 已 经 很 复杂 
的 系统 来 设计 功能 往往 会 面临 更 大 的 挑战 。 


想 要 提供 合格 的 操作 设计 ， 需 要 在 头脑 中 持 有 系统 的 心理 模型 。 在 工作 中 ， 我 们 想象 系统 中 进行 的 操作 ， 并 且 使 用 这 种 心理 
模型 来 跟踪 它 是 如 何 工作 的 ， 当 系统 出 现 问 题 不 能 正常 工作 时 ， 也 使 用 这 种 心理 模型 来 调试 它 。 系 统 越 复杂 ， 拥 有 准确 的 心理 模 


型 就 越 困 难 。 过 于 复杂 的 系统 往往 导致 没有 人 能 完全 理解 它 。 
在 《The Elements of Programming Style》 (Kernighan&pPlauger，1978) 这 本 书 中 提 到 : 
调试 的 难度 比 从 无 到 有 写 代码 的 难度 大 两 倍 。 因 此 ， 即 使 你 用 尽 洪荒 之 力 编写 出 精妙 代码 ， 最 终 也 可 能 无 法 调试 它 。 


分 布 式 系统 也 是 如 此 。 在 设计 阶段 看 似 节省 下 来 的 每 一 分 钟 ， 在 系统 运行 时 会 加 倍 地 还 给 你 。 


4.3 ”组 合 


分 布 式 系统 由 许多 更 小 的 系统 组 成 。 在 本 节 中 ， 我 们 将 详细 探讨 三 种 基本 的 组 合 模式 : 
. 具有 多 个 后 端 副本 的 负载 均衡 器 。 

具有 多 个 后 端的 服务 器 。 

* 服务 器 树 。 

1. 具 有 多 个 后 端 副本 的 负载 均衡 器 


第 一 个 组 合 模式 是 具有 多 个 后 端 副本 的 负载 均衡 器 。 如 图 4-1 所 示 ， 请 求 被 发 送 到 负载 均衡 器 。 对 于 每 个 请 求 ， 它 选择 一 个 
后 端 服务 并 将 请 求 转发 过 去 。 响 应 返回 到 负载 均衡 器 ， 负 载 均衡 器 继而 将 其 转发 给 原始 请 求 者 。 


负载 平衡 可 


副本 0 副本 1 副本 2 


图 4-1 带 有 多 个 副本 的 负载 均衡 器 
之 所 以 把 后 端 称 为 “副本 ” ， 因 为 它们 都 是 彼此 的 克隆 或 复制 ， 发 送 到 任何 副本 的 请 求 都 应 该 产生 相同 的 响应 。 


负载 均衡 器 必须 始终 知道 哪些 后 端 仍 在 运行 并 准备 好 接收 请 求 。 例 如 ， 负 载 均 衡器 每 秒 发 送 数 十 次 健康 检查 查询 ， 如 果 健 康 
检查 失败 ， 则 停止 向 该 后 端 发 送 流 量 。 健 康 检查 是 一 个 简单 的 查询 ， 应 该 快速 执行 并 返回 一 个 值 表明 系统 是 否 应 该 接收 流量 。 


选择 向 哪个 后 端 发 送 查 询 可 以 简单 也 可 以 很 复杂 。 一 个 简单 的 方式 是 在 一 个 循环 中 依次 改变 接收 请 求 的 后 端 一 这 种 方式 
通常 称 之 为 轮 询 。 然 而 ， 一 些 后 端 可 能 比 其 他 后 端 更 强大 ， 因 此 可 以 在 循环 中 按 比 例 更 频繁 地 被 选择 。 更 复杂 的 方式 包括 最 小 负 
载 方案 ， 即 负载 均衡 器 跟踪 每 个 后 端的 负载 状况 ， 并 始终 选择 负载 最 小 的 一 个 。 


选择 负载 最 小 的 后 端 听 起 来 是 合理 的 ， 但 是 考虑 不 周 的 实现 可 能 带 来 灾难 性 的 后 果 。 后 端 可 能 会 在 实际 变 得 过 载 之 前 显露 不 
出 超载 的 迹象 。 出 现 这 个 问题 是 因为 比较 难以 准确 地 衡量 系统 的 负载 。 如 果 是 以 最 近 发 送 到 服务 器 的 连接 数量 来 衡量 ， 则 该 定义 
会 掩盖 一 个 事实 ， 那 就 是 某 些 连接 可 能 持续 时 间 比 较 长 ， 而 其 他 连接 可 能 很 快 就 返回 了 。 如 果 是 基于 CPU 利用 率 来 衡量 ， 则 此 
定义 对 输入 /输出 〈MO) 过 载 是 无 效 的。 通常 使 用 最 后 5 分 钟 负载 的 尾随 平均 值 来 衡量 负载 。 尾 随 平均 值 有 一 个 问题 ， 那 就 是 作 
为 一 个 平均 值 ， 它 们 只 反映 了 过 去 ， 而 不 是 现在 。 由 此 带 来 的 结果 就 是 ， 急 剧 的 、 突 然 的 负载 增加 不 会 在 近期 的 平均 值 中 反映 出 


想象 一 下 有 10 个 后 端的 负载 均衡 器 ， 每 个 后 端的 负载 在 80%， 现 在 添加 了 一 个 新 的 后 端 。 因 为 它 是 新 的 ， 没 有 任何 负载 ， 
因此 是 最 小 负载 的 后 端 。 一 个 从 考虑 的 最 小 负载 算法 会 发 送 所 有 流量 到 这 个 新 的 后 端 ， 导 致 没有 流量 发 送 到 其 他 10 个 后 端 去 。 
结果 就 是 这 个 新 后 端的 流量 增加 得 太 快 了 ， 以 至 于 被 涌 入 的 流量 淹没 ， 因 为 没有 一 个 单独 的 后 端 可 以 同时 处 理 先前 由 10 个 后 端 
处 理 的 流量 。 使 用 尾随 平均 值 意味 着 已 有 的 后 端 将 继续 报告 虚假 的 高 负载 几 分 钟 ， 而 新 的 后 端 将 报告 虚假 的 低 负载 。 


使 用 这 个 方案 ， 负 载 均 衡器 将 在 相当 一 段 时 间 内 相信 新 机 器 比 所 有 其 他 机 器 负载 低 。 在 这 种 情况 下 ， 机 器 的 负载 会 变 得 太 
高 ， 甚 至 崩 省 和 重新 启动 。 当 它 恢复 服务 时 ， 这 种 循环 又 将 重新 开始 。 


轮 询 法 反而 能 够 避免 这 样 的 情况 。 考 虑 较为 周全 的 最 小 负载 方案 会 具有 某 种 类 型 的 控制 ， 它 不 会 向 同一 队列 中 的 任何 一 台 服 
务 器 发 送 超过 一 定数 量 的 请 求 ， 这 被 称 为 慢 局 动 算法 。 


使 用 朴素 最 小 负载 算法 带 来 的 麻烦 


没有 慢 启 动 的 负载 均衡 器 已 经 引起 许多 问题 。 一 个 著名 的 例子 是 2001 年 9 月 11 日 恐怖 袭击 当天 在 CNN.com 网 站 发 生 的 ， 那 
天 ， 许 多 人 试图 访问 CNN.com， 后 端 开始 变 得 过 载 。 一 台 服 务 器 前 溃 了 ， 当 它 重 启 之 后 又 再 次 崩溃 ， 因 为 朴素 最 小 负载 算法 会 
把 所 有 流量 发 送 给 它 。 当 它 宕 机 之 后 ， 其 他 后 端 也 一 个 接 一 个 地 先后 超载 、 崩 演 ， 当 它们 重启 之 后 又 会 收 到 所 有 的 流量 ， 再 次 陷 
入 崩溃 之 中 。 

因此 ， 虽 然 系统 管理 员 在 努力 找 出 发 生 了 什么 ， 但 是 CNN 的 服务 依然 变 得 基本 上 不 可 用 。 他 们 辩护 称 ， 网 络 是 如 此 新 的 一 


种 事物 ， 以 至 于 没有 人 有 经 验 来 处 理 突然 的 流量 激增 一 如 9 . 11 遇 到 的 这 种 情况 。CNN 所 使 用 的 解决 方案 是 停止 所 有 后 端 并 且 
同时 启动 它们 ， 因 此 它们 将 显示 零 负载 并 且 接 收 相等 量 的 业务 。 








CNN 团 队 后 来 发 现 ， 在 事件 发 生 几 天 前 ， 负 和 载 均衡 器 的 软件 升级 已 经 就 绪 ， 但 尚未 安装 。 该 升级 增加 了 一 个 慢 启动 机 制 ， 
恰好 能 够 应 对 这 样 的 情况 。 


2. 具 有 多 个 后 端的 服务 器 


下 一 个 组 合 模式 是 具有 多 个 后 端的 服务 器 。 服 务 器 接收 请 求 ， 向 多 个 后 端 服务 器 发 送 查 询 ， 并 通过 聚合 这 些 应 答 构成 最 终 应 


啼 


图 4-2a 说 明了 一 个 简单 的 搜索 引擎 如 何在 多 个 后 端的 帮助 下 处 理 查 询 。 前 端 接收 请 求 ， 然 后 将 这 个 查询 转发 到 许多 后 端 服 
务 器 。 拼 写 检查 器 响应 信息 ， 以 便 搜索 引擎 可 以 建议 备用 拼写 ; 负责 网 页 和 图 形 搜索 的 后 端 会 使 用 与 查询 条 件 相关 的 网 站 和 图 形 
列表 进行 响应 ， 负 责 广告 的 服务 器 会 使 用 与 查询 相关 的 广告 进行 响应 。 一 旦 收 到 响应 ， 前 端 使 用 这 些 信 息 来 构造 HTML， 从 而 组 
成 用 户 的 搜索 结果 页 面 ， 然 后 将 其 作为 响应 发 送 。 


图 4-2b 说 明了 另 一 个 具有 副本 和 负载 均衡 后 端的 相同 架构 ， 它 与 前 一 个 使 用 了 同样 的 设计 原则 ， 但 它 具有 更 好 的 扩展 性 和 
应 对 故障 的 能 力 。 


这 种 组 合 具 有 许多 优点 ， 由 于 后 端 并 行 工作 ， 一 个 响应 不 必 等待 前 一 个 后 端 进程 结束 之 后 才 开 始 下 一 个 请 求 。 而 且 系统 是 松 
耦合 的 ， 也 允许 一 个 后 端 服务 失败 的 时 候 ， 仍 然 可 以 通过 填充 一 些 默认 信息 或 将 该 区 域 留 为 空白 来 构造 页 面 。 


\ 





y 
EYE 


图 4-2 ”此 服务 由 一 个 服务 器 和 许多 后 端 组 成 


这 种 模式 还 允许 一 些 相当 复杂 的 延迟 管理 。 假 设 此 系统 希望 在 200 ms 或 更 短 的 时 间 内 返回 结果 ， 如 果 由 于 某 种 原因 某 些 后 
端 发 生 延 迟 ， 则 前 端 不 必 等 待 。 如 果 编 写 和 发 送 生成 的 HTML 需 要 10 ms， 在 190 ms 的 时 候 ， 前 端 可 以 放弃 缓慢 的 后 端 ， 并 使 用 
已 经 获得 的 信息 来 生成 页 面 。 管 理 这 样 的 延迟 时 间 预 算 的 能 力 可 以 是 非常 强大 的 。 例 如 ， 如 果 广 告 系统 缓慢 ， 则 可 以 只 显示 搜索 
结果 而 不 显示 广告 。 


需要 澄清 的 是 ， 所 谓 “ 前 端 ” 和 “后 端 ” 代 表 的 是 一 个 视角 问题 。 前 端 向 后 端 发 送 请 求 ， 后 端 用 结果 响应 。 服 务 器 既 可 以 是 
前 端 ， 也 可 以 是 后 端 。 在 前 面 的 示例 中 ， 服 务 器 是 Web 浏 览 器 的 后 端 ， 但 却 是 拼写 检查 服务 器 的 前 端 。 


这 种 模式 有 很 多 变化 。 可 以 复制 每 个 后 端 以 增加 容量 或 弹性 ， 也 可 以 在 各 种 级 别 进行 缓存 。 


扇 出 (fan out) 指 的 是 一 个 查询 导致 许多 新 查询 ， 每 个 后 端 会 接收 一 个 新 查询 。 查 询 “ 扇 出 ”到 单个 后 端 ， 后 端 服务 的 响 
应 称 之 为 扇 入 (fan in) ， 每 个 响应 回 到 前 端 并 且 被 组 合成 最 终结 果 。 


任何 情况 下 的 扇 入 扇 出 都 有 发 生 拥塞 的 风险 。 经 常 一 个 小 查询 可 能 导致 大 量 的 响应 ， 因 此 ， 用 于 扇 出 可 以 只 有 人 少量 的 带宽 ， 
但 扇 入 可 能 没有 足够 的 带宽 来 支持 ， 这 可 能 导致 网 络 链 路 拥塞 和 服务 器 过 载 。 如 果 查 询 和 响应 的 大 小 一 致 ， 或 者 只 是 偶尔 有 大 的 
响应 ， 则 更 容易 对 系统 的 网 络 和 服务 器 容量 进行 合适 的 设计 。 但 是 在 突 发 的 或 不 可 预测 的 大 响应 情况 下 ， 设 计 系统 是 很 困难 的 。 
一 些 网 络 设备 被 专门 设计 来 处 理 这 种 情况 ， 它 们 可 以 动态 地 为 这 种 突 发 情况 提供 更 多 的 缓冲 空间 。 同 样 ， 后 端 可 以 对 自身 进行 速 
率 限 制 ， 从 源头 避免 产生 这 种 情况 。 最 后 ， 前 端 可 以 通过 控制 它们 发 出 的 新 查询 ， 通 知 后 端 减 慢 速 度 ， 或 者 通过 实施 应 急 措 施 更 
好 地 处 理 突 发 流量 ， 管 理 拥塞 。 

3. 服 务 器 树 

另外 一 个 基本 组 成 模式 是 服务 器 树 。 如 图 4-3 所 示 ， 在 此 方案 中 ， 许 多 服务 器 与 一 个 根 服务 器 协同 工作 ， 根 服务 器 下 挂 有 父 
服务 器 ， 以 及 树 底部 的 叶 服 务 器 ， 它 们 共同 构成 了 这 棵 树 (在 计算 机 科学 中 ， 树 是 倒置 的 ) 。 通 常 ， 这 种 模式 用 于 访问 大 型 数据 


集 或 语料库 (corpus) 。 语 料 库 都 很 大 ， 没 有 任何 一 台 单 独 的 机 器 可 以 容纳 得 下 ， 因 此 每 个 叶 存 储 整 体 的 一 个 部 分 或 切片 
(shard) 。 


根 廊 扣 


父 市 点 1 





叶 节 点 0| | 时 节点 1 


图 4-3 ”服务 器 树 


要 查询 整个 数据 集 ， 根 节点 将 接收 原始 查询 ， 并 将 其 转发 给 父 节点 。 父 节点 再 将 查询 转发 给 叶 节点 ， 叶 节点 搜索 其 持 有 的 那 
部 分 语料库 ， 然 后 将 结果 发 送 回 父 节点 。 父 节点 对 结果 进行 排序 和 过 渡 之 后 转发 到 根 节点 ， 然 后 根 节点 从 所 有 的 父 节点 的 响应 中 
组 合 出 结果 ， 最 后 形成 完整 的 答案 响应 给 调用 者 。 


想象 一 下 ， 你 想 知道 乔治 .华盛顿 在 百科 全 书 中 被 提 到 了 多 少 次 。 你 可 以 按 顺 序 读 取 每 卷 百 科 全 书 并 得 到 答案 。 或 者 你 可 以 
将 每 卷 书 分 配给 不 同 的 人 ， 并 让 这 些 人 并 行 地 搜索 手中 那 一 卷 。 显 然后 一 种 方法 可 以 更 快 地 完成 任务 。 


这 种 模式 的 主要 好 处 是 它 允 许 并 行 搜索 一 个 大 语料库 。 不 仅 叶 节点 能 并 行 搜索 各 自 所 持 有 的 那 部 分 语料库 ， 由 父 节点 执行 的 
排序 和 排名 也 能 并 行 地 进行 。 


例如 ， 如 果 把 从 美国 国会 图 书馆 的 每 本 书 中 提取 的 文本 作为 语料库 ， 则 语料库 因为 数据 量 太 大 而 无 法 放 入 一 台 单 独 的 计算 机 
里 ,比较 合理 的 方式 是 ， 信 息 被 分 散在 成 百 上 干 台 叶 节 点 中 。 除 此 之 外 ， 还 有 根 节点 和 父 节点 。 搜 索 查 询 将 发 送 到 根 节点 ， 根 节 
点 继而 将 查询 转发 到 所 有 父 节点 。 每 个 父 节 点 对 其 下 面 的 所 有 叶 节 点 进行 遍历 查询 。 一 旦 叶 节 点 有 所 响应 ， 父 节点 就 会 通过 相关 
性 对 结果 进行 排序 和 排名 。 


例如 ， 叶 节点 的 答复 可 能 是 : 查询 的 所 有 单词 存在 于 一 本 书 中 的 某 个 相同 段落 中 ， 而 对 于 另 一 本 书 ， 可 能 仅 在 某 个 段落 中 存 
在 一 些 单词 (不 太 相 关 ) ， 或 者 它们 存在 但 不 在 相同 的 段落 或 页 面 中 (更 不 相关 ) 。 如 果 查 询 需 要 最 优 的 50 个 答案 ， 父 节点 可 
以 将 前 50 个 结果 发 送 到 根 ， 并 扔 掉 其 余 的 结果 。 根 节点 从 每 个 父 节点 接收 结果 ， 并 选择 其 中 最 好 的 50 个 构建 响应 。 


此 方案 还 允许 开发 人 员 在 预期 的 延迟 内 完成 工作 。 如 果 快 速 答案 比 完美 答案 更 重要 ， 并 且 此 时 已 经 接近 延迟 的 极限 了 ， 那 么 
父 节点 和 根 节点 无 须 等 待 迟到 的 子 节点 响应 。 


这 种 模式 可 能 会 有 许多 变化 。 元 余 服务 器 可 以 与 负载 均衡 方案 配合 ， 以 将 它们 之 间 的 工作 划分 开 来 ， 并 执行 某 种 路 由 以 绕 开 
故障 服务 器 。 扩 展 叶 节点 的 数量 可 以 让 每 个 叶 节点 在 更 小 的 语料库 上 进行 搜索 ， 或 者 每 个 语料库 的 片段 可 以 放置 在 多 个 叶 节 点 上 
以 提高 可 用 性 。 在 每 个 级 别 扩大 父 节点 的 数量 可 以 增加 对 结果 进行 排序 和 排名 的 能 力 。 可 以 使 用 更 多 级 别 的 父 服务 器 来 构造 一 棵 
更 高 的 树 。 更 多 的 级 别人 允许 更 宽 的 扇 出 ， 这 对 于 极 大 的 语料库 是 重要 的 。 父 节点 可 以 提供 缓存 功能 以 减轻 叶 服 务 器 上 的 压力 ， 在 


这 种 情况 下 ， 更 多 级 别 的 父 节 点 可 以 提高 缓存 效率 。 这 些 技 术 还 可 以 帮助 减轻 与 扇 入 相关 的 拥塞 问题 。 


4.4 分布 式 状态 


大 型 系统 通常 存储 或 处 理 大 量 的 状态 ， 状 态 由 经 常 更 新 的 数据 (例如 数据 库 ) 组 成 。 如 果 语 料 库 相 对 静态 ， 则 可 以 仅 在 发 布 
新 版 本 时 定期 更 新 ， 例 如 ， 搜 索 美 国 国会 图 书馆 的 系统 可 以 每 周 更 新 一 次 语料库 。 相 比 之 下 ， 电 子 邮 件 系统 中 的 数据 处 于 持续 变 
化 的 状态 ， 新 数据 不 断 到 达 ， 当 前 数据 不 断 更 新 (电子 邮件 消息 被 标记 为 “已 读 ” 或 在 文件 夹 之 间 移 动 ) ， 还 有 数据 在 被 不 断 删 


分 布 式 计 算 系 统 有 许多 方法 来 处 理 状态 。 但 是 ， 它 们 都 涉及 某 种 复制 和 分 片 ， 这 会 带 来 一 致 性 、 可 用 性 和 分 区 容错 性 的 问 


闪 
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存储 状态 的 最 简单 的 方法 是 把 它 放 在 一 台 机 器 上 ， 如 图 4-4 所 示 。 不 幸 的 是 ， 该 方法 会 相当 快 地 达到 其 极限 : 单 台 机 器 仪 能 
人 存储 有 限 数量 的 状态 ， 并 且 如 果 一 台 机 器 宕 机 ， 则 所 有 的 状态 数据 都 无 法 访问 。 单 台 机 器 仅 具 有 有 限 的 处 理 能 力 ， 这 意味 着 它 可 
以 同时 处 理 的 读 取 和 写 入 的 数量 是 有 限 的 。 





图 4-4 ”状态 保存 在 一 个 地 点 ， 不 是 分 布 式 计算 


在 分 布 式 计 算 中 ， 我 们 通过 将 整体 分 为 分 片 或 切片 分 别 存储 在 多 台 机 器 上 来 存储 状态 。 这 样 ， 我 们 可 以 存储 的 状态 数量 仅 受 
可 以 获取 的 机 器 数量 的 限制 。 此 外 ， 每 个 分 片 存储 在 多 台 机 器 上 ， 因 此 单 台 机 器 故障 不 会 失去 对 任何 状态 的 访问 。 每 个 副本 可 以 
每 秒 处 理 一 定数 量 的 查询 ， 因 此 我 们 可 以 通过 增加 副本 来 处 理 任意 数量 并 发 读 写 请 求 。 如 图 4-5 中 所 示 ， 其 中 N qps 被 接收 并 分 


布 在 三 个 分 片 中 ， 每 个 分 片 进行 三 路 复制 ， 因 此 ， 平 均 有 九 分 之 一 的 查询 到 达 特 定 的 副本 服务 器 。 
I qps 
平衡 器 


ee -= J pn 


到 到 A 
每 个 分 片 分 片 0 分 片 ] Fr 
3 个 副本 


图 4-5 ”分 布 式 的 分 片 和 复制 状态 





写 入 或 者 请 求 更 新 状态 需要 更 新 所 有 的 副本 。 在 更 新 过 程 中 ， 如 果 有 的 副本 还 没 更 新 完 ， 这 时 客户 端 有 可 能 会 读 到 脏 数 据 。 
图 4-6 展 示 了 我 们 在 进行 写 操作 过 程 中 因为 读 取 到 过 期 的 缓存 而 带 来 的 种 种 困惑 ， 下 一 节 我 们 会 更 深入 地 讨论 。 


dl 





图 4-6 ”更 新 过 程 中 使 用 缓存 数据 导致 了 数据 读 取 不 一 致 的 视图 


让 我 们 来 看 看 在 一 个 最 简单 的 模式 中 ， 服 务 器 的 根 节 点 是 如 何 处 理 存储 或 查询 状态 请 求 的 。 首 先 需要 判断 哪个 分 片 中 包含 了 
请 求 的 数据 ， 之 后 将 该 请 求 转发 到 相应 的 服务 器 去 处 理 ， 处 理 结果 原 路 返回 。 这 个 与 上 一 节 中 我 们 提 到 的 服务 器 树 模式 非常 相 
似 , 但 两 者 有 所 不 同 。 首 先 查 询 请 求 最 终 会 被 一 个 节点 处 理 而 不 是 所 有 节点 ; 另外 ， 请 求 的 操作 不 仅仅 是 读 ， 还 可 能 是 写 。 一 个 
分 片 多 个 副本 的 更 新 操作 是 非常 复杂 的 ， 因 为 分 片 更 新 ， 所 有 副本 也 必须 同步 更 新 。 在 这 种 情况 下 ， 我 们 通常 的 做 法 是 使 用 根 节 
点 来 通知 所 有 叶 节 点 进行 更 新 ， 或 者 通过 叶 节 点 之 间 互 相传 递 更 新 来 完成 。 


我 们 需要 扩展 该 模式 来 更 好 地 适应 大 量 数据 传输 的 情形 ， 根 节点 更 应 该 专注 于 获取 数据 的 方式 而 非 数 据 本 身 ， 这 样 请 求 者 可 
以 直接 请 求 数据 的 源头 。 


举 个 例子 ， 假 设 PB 级 数据 分 布 在 数 干 台 机 器 的 分 布 式 系统 中 ， 每 个 文件 被 拆 分 成 干 兆 字 节 大 小 的 块 ， 为 了 元 余 每 个 块 又 被 
人 存储 在 多 个 机 器 上 ， 这 种 方案 允许 创建 超过 机 器 允许 范围 内 的 更 大 文件 。 主 服务 器 跟踪 文件 列表 同时 标记 块 所 在 位 置 ， 如 果 你 熟 
悉 UNIX 文 件 系 统 ， 那 么 主 服务 器 存储 着 文件 指针 inode， 每 个 文件 数据 块 的 列表 ， 以 及 其 他 机 器 实际 存储 的 数据 块 。 文 件 系统 
涉及 的 各 种 操作 都 是 通过 主 服务 器 使 用 类 似 inode 的 信息 来 操作 实际 的 机 器 完成 的 。 


假设 某 一 时 刻 产生 了 大 量 的 请 求 ， 主 服务 器 需要 确认 有 多 少 TB 文 件 存储 在 一 台 机 器 上 ， 多 少 TB 文 件 存储 在 另 一 台 机 器 上 ， 
它 可 以 请 求 每 台 机 器 来 获取 数据 响应 请 求 ， 但 是 这 样 一 来 ， 主 服务 器 在 接收 和 分 发 大 量 数 据 块 时 有 可 能 过 载 。 相 反 ， 如 果 响 应 的 


每 台 机 器 的 数据 列表 ， 那 么 请 求 者 就 可 以 直接 访问 相关 机 器 来 获取 数据 ， 这 样 主 服务 器 不 再 是 传输 大 量 数据 的 中 间 人 。 这 个 方 
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图 4-7 主 服务 器 将 请 求 委托 给 其 他 服务 器 处 理 


4.5 ” CAP 原则 


CAP 表 示 一 致 性 、 可 用 性 和 分 区 容错 性 。CAP 原 则 声明 ， 不 可 能 构建 保证 一 致 性 、 可 用 性 和 分 区 容错 性 的 分 布 式 系统 。 可 以 
实现 任何 一 个 或 两 个 ， 但 不 能 三 个 同时 满足 。 当 使 用 这 样 的 系统 时 你 必须 确认 哪些 因素 对 你 更 加 重要 。 


1. 一 致 性 


一 致 性 意味 着 所 有 节点 在 同一 时 刻 看 到 的 数据 相同 。 如 果 存 在 多 个 副本 ， 只 要 有 一 个 副本 更 新 ， 所 有 的 用 户 都 会 同时 看 到 更 
新 ， 哪 怕 从 不 同 的 副本 来 观察 。 不 能 保证 一 致 性 的 系统 可 以 提供 最 终 一 致 性 。 例 如 ， 它 们 可 以 保证 在 一 定时 间 范 围 内 更 新 所 有 副 
本 ， 在 没有 达到 最 终 期 限 之 前 ， 有 的 请 求 会 接收 到 新 数据 而 有 的 请 求 接收 的 却 是 过 期 的 数据 。 


完全 一 致 性 有 时 候 不 是 那么 重要 。 假 设 有 一 个 社交 网 络 专 为 用 户 的 积极 行动 奖励 荣誉 点 ， 不 管 任何 地 方 只 要 显示 名 字 就 会 显 
示 荣 誉 点 。 存 储 荣誉 点 的 数据 库 在 美国 、 欧 洲 和 亚洲 进行 复制 。 一 个 用 户 在 欧洲 获得 了 奖励 点 数 ， 点 数 的 变化 需要 几 分 钟 才 可 以 
更 新 到 欧洲 和 亚洲 的 副本 ， 对 于 这 个 系统 来 说 已 经 足够 了 ， 因 为 绝对 的 分 数 不 是 必要 的 。 如 果 打 电话 的 两 个 人 一 个 在 美国 一 个 在 
亚洲 ， 彼 此 说 的 话 需要 经 过 数秒 才能 被 对 方 听 到 ， 但 是 这 没什么 不 受 的 。 如 果 更 新 由 于 网 络 拥塞 消耗 了 几 分 钟 或 者 由 于 网 络 中 断 
消耗 了 几 小 时 ， 这 些 延 迟 并 不 怎么 可 怕 。 


现在 假设 一 个 银行 应 用 程序 构建 在 这 个 系统 之 上 ， 一 个 人 在 美国 ， 另 一 个 人 在 欧洲 ， 协 调 他 们 一 起 行动 来 同时 从 同一 账户 提 
款 ， 这 时 每 个 人 使 用 的 ATM 机 都 会 查询 附近 的 数据 库 副 本 ，ATM 机 会 告诉 用 户 钱 可 用 并 且 操 作 可 以 被 撤销 。 如 果 更 新 的 操作 传 
播 速 度 太 慢 ， 两 个 人 可 能 会 同时 提 款 成 功 ， 这 时 银行 意识 到 钱 已 经 被 提取 双 份 但 为 时 已 晚 。 


事实 上 全 球 ATM 系 统 不 要 求 数据 库 的 一 致 性 ， 因 为 无 法 在 网 络 延迟 和 中 断 时 保持 一 致 性 。 银 行 可 以 在 网 络 中 断 的 情况 下 发 
放 有 限 的 资金 ， 这 种 做 法 的 成 本 低 于 一 个 不 幸 的 没有 现金 的 客户 。 欺 诈 性 的 交易 会 在 事后 处 理 ， 每 日 限制 提 款 额度 是 防止 欺诈 的 
主要 手段 ， 评 估 超 额 的 费用 比 实现 全 球 数据 库 的 一 致 性 更 加 容易 。 


2. 可 用 性 


可 用 性 保证 对 于 每 个 请 求 都 会 收 到 成 功 或 者 失败 的 响应 ， 换 句 话说 ， 系 统 是 可 用 的 。 举 个 例子 ， 为 了 保证 系统 的 可 用 性 ， 通 
常 使 用 多 个 副本 来 存储 数据 ， 客 户 端 总 是 能 访问 到 至 少 一 个 副本 。 


CAP 原 则 声明 可 用 性 还 保证 系统 能 够 报告 失败 。 举 例 来 说 ， 当 系统 检测 到 已 经 超 负 葵 工 作 ， 会 返回 错误 码 来 响应 请 求 ， 通 常 


表示 “请 稍 后 再 试 ”的 意思 。 这 样 请 求 者 会 即时 收 到 响应 消息 ， 不 必 等 待 几 分 钟 或 者 几 小 时 了 。 
3. 分 区 容错 性 


分 区 容错 性 意味 着 系统 允许 消息 丢失 或 者 系统 的 某 个 部 分 出 现 故障 。 举 一 个 分 区 容错 性 最 简单 的 例子 ， 提 供 服务 的 相关 机 器 
因为 网 络 中 断 而 失去 彼此 通信 的 能 力 ， 系 统 依然 可 以 继续 运行 参见 图 4-8) 。 


副本 0 ) 





分 区 


TD 


图 4-8 彼此 分 隔 的 节点 


回 到 我 们 副本 的 例子 ， 只 读 的 系统 非常 适合 分 区 容错 性 ， 因 为 副本 彼此 间 不 需要 通信 。 但 是 让 我 们 思考 副本 更 新 的 流程 : 首 
先 在 一 个 副本 上 进行 更 新 ， 更 新 完毕 后 复制 到 其 他 的 副本 ， 副 本 彼此 如 果 不 能 通信 ， 系 统 不 能 保证 在 一 定时 间 内 同步 信息 ， 那 么 
这 就 成 为 一 个 故障 系统 。 


现在 让 我 们 来 考虑 两 台 主 从 服务 器 相互 协作 的 情形 ， 两 者 维护 着 完整 的 副本 ， 如 果 主 节点 挂 挤 ， 那 么 从 节点 会 担负 起 主 节点 
的 职责 ， 这 取决 于 心跳 的 丢失 。 换 句 话说 ， 两 台 服 务 器 彼此 之 间 通 过 专用 网 络 来 进行 定期 的 健康 检测 ， 如 果 两 者 之 间 的 心跳 网 络 
被 隔离 ， 那 么 从 节点 会 提升 自己 为 主 节点 ， 因 为 彼此 不 能 通信 所 以 无 法 检测 主 节点 的 存活 。 


此 时 有 两 个 主 节 点 ， 并 且 系统 分 离开 来 了 ， 这 种 情况 被 称 为 脑 裂 。 


存在 一 些 特殊 的 分 区 情况 。 丢 包 被 认为 是 系统 的 暂时 分 区 ， 因 为 它 适 用 于 CAP 原 则 。 另 一 个 特殊 情况 是 完全 的 网 络 中 断 ， 即 
使 是 分 区 容错 性 最 高 的 系统 也 不 能 在 这 种 情况 下 工作 。 


CAP 原 则 说 ， 任 何 一 个 或 两 个 因素 的 组 合 可 以 满足 ， 但 不 能 同时 满足 全 部 三 个 。2002 年 ， 吉 尔 伯 特 (Gilbert) 和 林 奇 
(Lynch) 发 表 了 这 个 原始 猜想 的 正式 证 明 ， 使 它 成 为 一 个 定理 。 你 可 以 认为 这 是 牺牲 了 第 三 个 因素 来 实现 其 他 两 个 。 


CAP 原 理由 图 4-9 中 的 三 角形 表示 。 传 统 的 关系 数据 库 (如 Oracle、MySQL 和 PostgreSQL) 是 满足 一 致 性 和 可 用 性 的 
(CA) ， 它 们 使 用 事务 和 其 他 数据 库 技术 来 确保 更 新 是 原子 的 。 因 此 ， 它 们 保证 所 有 用 户 能 同时 看 到 相同 的 状态 。 较 新 的 存储 
系统 (如 Hbase、Redis 和 Bigtable) 专注 于 一 致 性 和 分 区 容错 性 (CP) 。 分 区 时 ， 它 们 变 为 只 读 或 拒绝 响应 任何 请 求 ， 确 保 不 
会 出 现 不 一 致 (此 时 某 些 用 户 会 看 到 | 日 数据 ， 而 其 他 用 户 会 看 到 新 数据 ) 。 最 后 ，Cassandra、Riak 和 Dynamo 等 系统 专注 于 可 
用 性 和 分 区 容错 性 (AP) 。 它 们 强调 总 是 能 够 提供 请 求 ， 即 使 它 意味 着 一 些 客户 端 收 到 过 期 的 结果 。 这 样 的 系统 通常 用 在 全 球 
分 布 式 网 络 中 ， 其 中 每 个 副本 通过 诸如 互联 网 这 种 不 太 可 靠 的 介质 与 其 他 副本 通信 。 


保持 随时 可 获取 、 可 操作 


可 用 性 
A 
传统 关系 数据 库 Voldemort, Riak， 
(PostgreSQL 、MySQL), ER AP Cassandra, CouchDB, 
Vertica, Spanner Dynamo 等 类 系统 
一 致 性 分 区 容错 性 
在 分 布 式 系统 中 的 所 C P 系统 如 果 不 能 在 时 限 内 达成 数 
有 数据 备份 ， 在 同一 时 据 一 致 性 ， 就 意味 着 发 生 了 分 区 
刻 是 否 是 同样 的 值 MongoDB, Hbase, 的 情况 ， 必 须 就 当前 操作 在 C 和 
Redis, MemcacheDB, Bigtable 。 A 之 间 做 出 选择 
图 4-9 CAP 原则 


SQL 和 其 他 关系 数据 库 使 用 术语 ACID 来 描述 它们 位 于 CAP 三 角形 的 哪 一 侧 。ACID 代 表 原 子 性 (事务 是 “全 有 或 无 ”) 、 一 
致 性 (在 每 个 事务 之 后 数据 库 处 于 有 效 状态 ) 、 隔 离 (并 发 事务 给 出 相同 的 结果 ， 如 同 它们 被 串 行 执行 一 样 ) 和 持久 性 (数据 不 
会 在 骨 溃 或 发 生 其 他 问题 的 情况 下 丢失 ) 。 提 供 较 弱 一 致 性 模型 的 数据 库 通常 将 自身 称 为 NoSQL， 并 用 BASE 加 以 描述 ， 也 即 基 
本 可 用 的 具有 最 终 一 致 性 的 软 状 态 服务 。 


4.6_” 松 耦合 系统 


对 分 布 式 系统 的 预期 包括 高 度 可 用 、 持 续 很 长 时 间 ， 并 且 演 进 和 变革 的 过 程 中 不 发 生 中 断 。 整 个 子 系统 常常 需要 在 系统 已 经 
启动 后 的 运行 过 程 中 被 蔡 换 ， 为 了 实现 这 一 点 ， 分 布 式 系统 使 用 抽象 来 构建 松散 耦合 的 系统 。 抽 象 意味 着 每 个 组 件 对 外 提供 了 接 
口 ， 以 隐藏 实现 细节 。 如 果 每 个 组 件 对 其 他 组 件 的 内 部 了 解 很 少 或 无 需 了 解 ， 我 们 就 认为 这 个 系统 是 松散 耦合 。 作 为 结果 ， 子 系 
统 可 以 被 男 一 个 提供 相同 的 抽象 接口 的 子 系统 替换 ， 即 使 它们 的 实现 完全 不 同 。 


我 们 用 拼写 检查 服务 来 作为 例子 。 较 好 的 抽象 级 别 是 接收 文本 并 返回 哪些 单词 拼写 错误 的 描述 以 及 每 个 单词 可 能 的 修正 列 
表 ， 较 差 的 抽象 级 别 是 简单 地 提供 对 词典 的 访问 以 及 前 端 可 以 查询 相似 的 词 。 后 者 不 是 一 个 好 的 抽象 的 原因 是 ， 如 果 发 明了 一 个 
全 新 的 检查 拼写 的 方法 ， 使 用 拼写 检查 服务 的 每 个 前 端 都 将 需要 重 写 。 比 如 ， 这 个 新 版 本 不 再 依赖 于 词典 ， 而 是 引入 人 工 智 能 技 
术 。 如 果 有 了 好 的 抽象 ,无需 前 端 改变 ， 它 将 简单 地 向 新 服务 器 发 送 相同 类 型 的 请 求 。 反 之 ， 较 差 抽象 的 用 户 则 不 会 那么 幸运 。 


除了 以 上 例子 外 ， 还 有 许多 实践 证 明 ， 松 耦合 系统 更 容易 演化 。 


继续 我 们 的 例子 ， 为 了 准备 启动 新 的 拼写 检查 服务 ， 两 个 版 本 可 以 并 行 运行 。 位 于 拼写 检查 系统 前 面 的 负载 均衡 器 可 以 将 所 


有 请 求 同 时 发 送 到 旧 系 统 和 新 系统 。 来 自 上 日 系统 的 结果 将 被 发 送 给 用 户 ， 但 是 来 自 新 系统 的 结果 将 被 收集 和 比较 以 用 于 质量 控 

制 。 起 初 ， 新 系统 可 能 不 会 产生 效果 良好 的 结果 ， 但 随 着 时 间 的 推移 ， 它 会 得 到 增强 ， 直 到 质量 足够 好 。 此 时 ， 新 系统 即 可 投入 
生产 。 此 时 要 小 心 ， 最 初 可 能 只 有 1% 的 查询 将 通过 新 系统 进行 ， 如 果 没有 用 户 抱 忽 ， 新 系统 将 逐步 拥有 更 大 的 比例 。 最 终 ， 所 
有 了 响应 将 来 自 新 系统 ， 此 时 旧 系 统 就 可 以 下 线 了 。 


其 他 系统 比拼 写 检 查 系统 需要 更 高 的 精确 度 和 准确 性 。 例 如 ， 可 能 存在 这 样 的 要 求 ， 即 新 系统 在 提供 新 功能 之 前 与 旧 系 统 是 
bug-for-bug 兼 容 的 。 也 就 是 说 ， 新 系统 必须 不 仅 再 现 特征 ， 而 且 还 必须 再 现 来 自 旧 系统 的 错误 。 在 这 种 情况 下 ， 向 两 个 系统 发 
送 请 求 和 比较 结果 的 能 力 对 于 部 署 它 的 操作 任务 至 天 重要 。 


案例 研究 : 改进 前 的 仿真 


当 Tom 在 Cibernet 时 ， 他 参与 了 一 个 替换 旧 系 统 的 项 目 。 因 为 它 是 一 个 金融 系统 ， 新 系统 必须 证 明 它 是 bug-for-bug 兼 容 的 ， 然 


旧 的 系统 建立 在 过 时 的 、 网 络 时 代 之 前 的 技术 之 上 ， 并 且 变 得 如 此 复杂 和 固化 ， 以 至 于 不 可 能 再 添加 新 的 功能 。 新 系统 建立 
在 更 新 、 更 好 的 技术 之 上 ， 并 且 有 一 个 更 简洁 的 设计 ， 更 容易 适应 新 的 功能 。 系 统 开始 平行 运行 并 比较 结果 。 


此 时 工程 师 在 旧 系 统 中 发 现 了 一 个 错误 。 货 币 竞 换 的 方式 是 非 标 准 的 ， 结 果 略 有 不 同 。 为 了 使 两 个 系统 之 间 的 结果 具有 可 比 
性 ， 开 发 人 员 逆 向 工程 了 该 错误 并 在 新 系统 中 对 其 进行 仿真 。 


现在 旧 的 和 新 的 系统 的 结果 匹配 到 了 每 一 分 钱 。 由 于 该 公司 对 新 系统 的 bug 兼 容 性 能 有 了 信心 ， 它 被 激活 为 主 系统 ， 旧 系统 
被 禁用 。 


从 这 时 开始 ， 可 以 对 系统 实现 新 的 特征 和 进行 收 进 。 毫 不 奇怪 地 ， 第 一 步 要 做 的 就 是 删除 模拟 货币 兑换 bug 的 代码 。 


4.7 速度 


到 目前 为 止 ， 我 们 已 经 详细 前 述 了 设计 大 型 分 布 式 系统 中 涉及 的 诸多 考虑 因素 。 对 于 网 络 和 其 他 交互 式 服务 ， 有 一 个 因素 可 
能 是 最 重要 的 一 一 速度 。 获 取信 息 、 存 储 信息 、 计 算 和 转换 信息 以 及 传输 信息 都 需要 时 间 ， 没 有 什么 事情 是 在 一 瞬间 发 生 的 。 


交互 式 系统 需要 快速 的 响应 时 间 。 对 于 快 于 200 毫 秒 的 响应 ， 用 户 会 觉得 这 是 一 个 瞬间 的 反应 ， 他 们 更 喜欢 快 而 不 是 慢 。 研 
究 报告 表明 ， 在 网 站 上 人 为 添加 了 50 毫 秒 的 延迟 后 ， 收 入 会 明显 下 降 。 在 总 吞吐 量 必须 满足 或 超过 输入 流量 的 批 处 理 和 非 交 互 
系统 中 ， 时 间 也 很 重要 。 


设计 一 个 高 性 能 系统 的 总 体 策略 是 ， 该 系统 应 该 基于 我 们 对 能 够 做 到 的 处 理 请 求 的 速度 的 最 佳 估计 ， 然 后 构建 原型 来 测试 我 
们 的 假设 。 如 果 我 们 错 了 ， 那 么 回 到 第 一 步 ， 至 少 我 们 此 次 所 学 到 的 教训 | 对 下 一 次 迭代 是 有 意义 的 。 当 构建 系统 时 ， 如 果 发 现 估 
计 和 原型 没有 像 所 希望 的 那样 指导 我 们 ， 我 们 能 够 重新 测量 和 调整 设计 。 

在 设计 过 程 开始 时 ， 我 们 经 常会 有 多 个 设计 ， 然 后 估计 每 个 设计 的 响应 速度 ， 并 淘汰 掉 不 够 快 的 。 我 们 不 一 定 会 选择 最 快 的 
设计 ， 因 为 最 快 的 设计 可 能 比 够 用 的 设计 付出 更 昂贵 的 代价 。 

我 们 如 何 确定 设计 是 否 值得 追求 ”构建 原型 非常 耗 时 。 通 常 我 们 可 以 通过 一 些 简单 的 估计 推导 出 来 。 选 择 几 个 常见 的 业务 流 
程 ， 并 将 它们 分 成 更 小 的 步骤 ， 然 后 估计 每 个 步骤 将 需要 多 长 时 间 。 


时 间 消 耗 的 两 个 最 大 贡献 因素 是 磁盘 访问 和 网 络 延迟 。 


磁盘 访问 很 慢 ， 因 为 它们 涉及 机 械 操作 。 要 从 磁盘 读 取 数 据 块 需要 机 械 臂 移动 到 正确 的 磁道 ， 然 后 盘 片 旋 转 ， 直 到 期 望 的 块 
到 达 读 取 头 下 方 。 此 过 程 通常 需要 10 毫 秒 。 而 从 RAM 中 读 取 相同 量 的 信息 ， 只 需要 0.002 毫 秒 ， 比 磁盘 的 速度 快 5000 倍 。 机 械 
臂 和 磁盘 ( 称 为 主轴 ) 每 次 只 能 处 理 一 个 请 求 ， 然 而 一 旦 磁头 在 正确 的 磁道 上 ， 它 可 以 顺序 读 取 许 多 连续 的 数据 块 。 因 此 ， 如 果 
两 个 块 相 邻 ， 则 读 取 两 个 块 通常 几乎 与 读 取 一 个 块 一 样 快 。 固 态 驱动 器 (SSD) 没有 机 械 臂 和 旋转 盘 ， 速 度 更 快 ， 当 然 成 本 也 更 


时. 
史 o 


网 络 访问 缓慢 ， 因 为 它 受 到 光速 的 限制 。 一 个 数据 包 从 加 利 福 尼 亚 到 荷兰 需要 大 约 75 毫 秒 ， 大 约 一 半 的 时 间 消 耗 在 光 的 传 
输 上 。 额 外 的 延迟 可 以 归 因 于 在 每 个 路 由 器 上 的 处 理 时 间 、 从 有 线 到 光纤 通信 和 再 次 转换 回来 的 电子 器 件 所 花费 的 时 间 、 在 每 端 
上 组 装 和 拆卸 报 文 所 花费 的 时 间 等 。 


在 同一 网 段 上 的 两 台 计 算 机 可 能 看 起 来 好 像 在 一 瞬间 就 能 完成 通信 ， 但 事实 并 非 如 此 。 这 里 的 时 间 尺 度 是 如 此 之 小 ， 以 至 于 
其 他 延迟 会 在 里 面 占 到 主要 因素 。 例 如 ， 当 通过 本 地 网 络 发 送 数据 时 ， 第 一 字 节 快速 到 达 ， 但 是 接收 数据 的 程序 通常 不 处 理 它 ， 
直到 接收 到 整个 报 文 。 


在 许多 系统 中 ， 与 来 自 网 络 和 磁盘 操作 的 延迟 相 比 ， 计 算 花 费 的 时 间 很 少 。 因 此 ， 如 果 只 知道 用 户 到 数据 中 心 的 距离 和 所 需 
的 磁盘 搜索 数 ， 通 常 可 以 估计 事务 消耗 的 时 长 。 基 于 这 种 估计 ， 往 往 足 以 淘汰 明显 有 问题 的 设计 。 


为 了 说 明 这 一 点 ， 假 设 你 正在 构建 一 个 电子 邮件 系统 ， 需 要 从 消息 存储 系统 检索 消息 ， 并 在 300 毫 秒 内 显示 该 消息 。 我 们 将 
使 用 图 4-10 中 列 出 的 时 间 近 似 来 帮助 我 们 设计 解决 方案 。 


Jeff Dean, a Google Fellow, has popularized this chart of common numbers 
to aid in architectural and scaling decisions. As you can see, there are many 
orders of magnitude difference between certain options. These numbers 
improve every year. Updates can be found online. 

Action Typical Time 

L]1 cache reference 0.5 ns 

Branch mispredict 5 ns 

L2 cache reference 7 ns 


Mutex lock/unlock 100 ns 
Main memory reference 100 ns 


Compress 1K bytes with Zippy 10,000 ns (0.01 ms) 
Send 2K bytes over 1 Gbps network 20,000 ns (0.02 ms) 
Read 1 MB sequentially from memory 250,000 ns (0.25 ms) 
Round trip within same datacenter 500,000 ns (0.5 ms) 
Read 1 MB from SSD 1,000,000 ns (3 ms) 
Disk seek 10,000,000 ns (10 ms) 
Read 1 MB sequentially from network 10,000,000 ns (10 ms) 
Read 1 MB sequentially from disk 30,000,000 ns (30 ms) 
Send packet from California to 150,000,000 ns (150 ms) 
Netherlands to California 





图 4-10 每 个 工程 师 都 应 当知 道 的 数字 


首先 我 们 从 头 到 尾 遵循 这 样 的 流程 : 请 求 可 能 来 自 于 另 一 个 大 陆 的 Web 浏 览 器 ， 请 求 必 须 被 认证 ， 查 询 数 据 库 索引 以 确定 
在 哪里 获得 消息 文本 ， 消 息 文本 被 检索 ， 最 终 格式 化 响应 并 且 传 送 回 用 户 。 


现在 估算 我 们 无 法 控制 的 元 素 。 在 加 利 福 尼 亚 和 欧洲 之 间 发 送 分 组 报 文通 常 必须 要 75 富 秒 ， 除 非 物理 学 允许 我 们 改变 光 
速 。 我 们 的 300 宫 秒 预算 减少 了 150 毫 秒 ， 因 为 我 们 不 仅 要 考虑 发 送 请 求 所 需 的 时 间 ， 还 要 考虑 应 答 的 时 间 消 耗 。 这 已 经 占 了 一 
半 的 预算 ， 而 且 无 法 优化 。 


我 们 与 运行 身份 验证 系统 的 团队 进行 沟通 ， 他 们 建议 预算 3 毫秒 进行 身份 验证 。 
格式 化 数据 的 时 间 比 我 们 佑 计 的 其 他 时 间 小 得 多 ， 因 此 可 以 忽略 它 。 


于 是 留 下 147 毫 秒 用 于 完成 信息 从 存储 到 检索 的 操作 。 如 果 典 型 的 索引 查找 需要 3 个 磁盘 寻 道 (每 个 10 宫 秒 ) 并 且 读 取 大 约 1 
兆 字 节 的 信息 (30 毫秒 ) ， 即 60 毫 秒 。 读 取消 息 本 身 可 能 需要 4 个 磁盘 寻 道 并 读 取 大 约 2 兆 字 节 的 信息 (100 毫 秒 ) 。 总 计 是 160 
毫秒 ， 这 超过 了 我 们 147 毫 秒 的 剩余 预算 。 


我 们 怎么 知道 它 会 需要 3 个 磁盘 寻 道 来 读 取 索引 ? 它 需 要 知道 UNIX 文 件 系统 的 内 部 工作 原理 ， 包 括 如 何在 目录 中 查找 文件 
以 查找 inode， 以 及 如 何 使 用 inode 来 查找 数据 块 。 这 就 是 为 什么 理解 你 使 用 的 操作 系统 的 内 部 原理 是 能 够 设计 和 操作 分 布 式 系 
统 的 关键 。UNIX 和 类 UNIX 操 作 系 统 的 内 部 文档 已 有 详细 记录 ， 因 此 提供 它们 相 比 其 他 操作 系统 有 更 大 的 优势 。 


虽然 知道 我 们 的 设计 不 满足 预 设 需求 ， 但 是 我 们 很 高 兴 灾难 已 被 避免 ， 早 知道 要 比 遇 到 问题 的 时 候 现 寻找 解决 方案 更 好 。 


看 起 来 60 毫 秒 的 索引 查找 是 一 个 很 长 的 时 间 ， 但 我 们 可 以 大 大 改善 。 如 果 索 引 保 人 存在 RAM 中 该 怎么 办 ”这 可 能 吗 ? 一 些 快 
速 的 计算 至 少 应 包含 3 层 的 查找 树 ， 这 样 才能 保证 有 足够 的 机 器 来 处 理 大 量 的 数据 。 要 向 上 和 向 下 移动 树 是 5 个 数据 包 ， 如 果 它 
们 都 在 同一 数据 中 心 内 ， 则 约 为 2.5 毫 秒 。 新 的 总 计 耗 时 (150 宫 秒 +3 毫 秒 +2.5 毫 秒 +100 毫 秒 =255.5 毫 秒 ) 小 于 我 们 的 300 宫 秒 
的 预算 。 





我 们 将 对 其 他 时 间 敏 感 的 请 求 重复 此 过 程 。 例 如 ， 我 们 发 送 电子 邮件 的 频率 低 于 读 取 它 们 的 时 间 ， 因 此 发 送 电子 邮件 的 时 间 
可 能 不 被 视 为 时 间 关 键 。 相 比 之 下 ， 删 除 邮件 的 时 间 几 乎 等 同 于 读 取 邮 件 的 时 间 。 我 们 可 能 重复 计算 几 个 删除 方法 来 比较 它们 的 
效率 。 


一 种 删除 设计 可 能 是 与 服务 器 联系 并 删除 存储 系统 和 索引 中 的 信息 。 另 一 种 设计 可 能 是 在 存储 系统 将 索引 中 的 信息 标记 为 已 
删除 ， 这 将 是 相当 快 的 ， 但 需要 一 个 新 的 元 素 ， 以 存放 标记 为 删除 的 信息 ， 偶 尔 也 会 紧缩 索引 ， 删 除 任何 标记 为 已 删除 的 项 目 。 


使 用 异步 设计 可 以 实现 更 快 的 响应 时 间 ， 这 意味 着 客户 端 向 服务 器 发 送 请 求 ， 并 快速 向 用 户 返 回 控制 权 ， 而 无 需 等 待 请 求 完 
成 。 用 户 认 为 该 系统 更 快 ， 即 使 实际 工作 滞后 。 异 步 设计 实现 起 来 更 复杂 ， 服 务 器 可 能 对 请 求 排 队 ， 而 不 是 实际 执行 操作 ， 另 一 
个 进程 从 队列 读 取 请 求 并 在 后 台 执 行 它们 。 或 者 ， 客 户 端 可 以 简单 地 发 送 请 求 并 稍 后 检查 响应 ,或 者 分 配 线程 或 子 进程 来 等 待 响 
应 。 


所 有 这 些 设计 都 是 可 行 的， 但 每 种 设计 都 提供 不 同 的 操作 速度 和 复杂 性 。 凭 借 原型 的 速度 和 成 本 估算 ， 可 以 实现 其 业务 决 


分 布 式 计算 在 许多 方面 不 同 于 传统 计算 。 它 规模 更 大 ， 有 很 多 机 器 ， 每 个 机 器 聚焦 于 执行 专门 的 任务 ， 服 务 被 复制 以 增加 容 
量 。 硬 件 故障 不 再 被 视 为 紧急 或 异常 ， 而 是 作为 系统 的 预期 部 分 。 因 此 ， 系 统 工作 常 伴随 故障 的 发 生 。 


大 型 系统 通过 组 合 较 小 的 部 件 来 形成 ， 我 们 讨论 了 这 种 组 合 通常 的 三 种 方式 : 许多 后 端 副本 的 负载 均衡 器 、 前 端 有 许多 不 同 
的 后 端 以 及 一 个 服务 器 树 。 


负载 均衡 器 在 许多 重复 系统 之 间 划 分 流量 。 具 有 许多 不 同 后 端的 前 端 并 行使 用 不 同 的 后 端 ， 每 个 后 端 执行 不 同 的 进程 。 服 务 
器 树 使 用 树 配置 ， 每 个 树 级 别 分 别 服务 于 不 同 的 目的 。 


分 布 式 系统 中 的 状态 维护 是 复杂 的 。 无 论 它 是 不 断 更 新 信息 的 大 型 数据 库 ， 还 是 许多 系统 需要 持续 访问 的 几 个 关键 位 ， 都 遵 
循 CAP 原 则 。CAP 原 则 声明 ， 不 可 能 构建 一 个 分 布 式 系统 来 同时 保证 一 致 性 、 可 用 性 和 分 区 容错 性 ， 最 多 只 能 选择 三 个 因素 中 的 
两 个 。 


系统 随 着 时 间 的 推移 而 发 展 ， 为 了 使 演进 更 容易 ， 组 件 需要 松 耦 合 的 实现 ， 对 提供 的 服务 进行 抽象 ， 使 得 内 部 可 以 被 蔡 换 或 
改进 而 不 改变 抽象 。 因 此 新 特征 加 入 的 时 候 ， 对 服务 的 依赖 性 不 需要 改变 。 


设计 分 布 式 系统 需要 了 解 各 种 操作 所 消耗 的 时 间 ， 以 便 可 以 设计 对 时 间 敏 感 的 进程 以 满足 其 延迟 预算 。 


第 5 草 ”大 数据 分 析 工 具 


5.1 Apache Hadoop 


本 节 将 介绍 Hadoop 核 心 系统 如 何 工作 ， 并 概述 Hadoop 的 生态 系统 。 


Hadoop 和 凭借 高 效 人 存储 与 计算 海量 数据 的 能 力 填充 了 市 场 的 空白 。 它 是 由 分 布 式 文件 系统 以 及 提供 在 集群 中 并 行 执行 程序 能 
力 的 分 布 式 计算 系统 组 成 的 ( 见 图 5-1) 。 你 很 可 能 偶然 听 说 过 Hadoop， 因 为 它 已 经 被 Yahoo! 、Facebook 和 Twitter 这 些 科 
技 巨头 用 于 满足 它们 的 大 数据 需求 ， 并 且 已 经 被 用 于 几乎 所 有 的 工业 领域 。 


人 MapReduce: 基于 批 处 
理 的 分 布 式 计算 框 染 


Tai 一 
一 一 


。 > 好 
服务 器 、 云 计算 HDFS: 分 布 式 文件 系统 


Hadoop 能 够 在 通用 人 硬件 上 运行 


图 5-1 ”Hadoop 是 运行 于 商业 硬件 之 上 的 分 布 式 系统 


1. 什 么 是 Hadoop 


Hadoop 是 一 个 提供 了 分 布 式 存储 与 计算 能 力 的 平台 。Hadoop 的 原本 构想 是 用 于 解决 开源 胞 虫 搜索 引擎 Nutch[l'] 存 在 的 扩 
展 性 问题 。 那 时 ， 谷 歌 故 表 了 一 篇 论文 ， 在 这 篇 论文 中 ， 描 述 了 它 的 传奇 的 分 布 式 文件 系统 GFS 和 并 行 计算 框架 MapReduce。 
这 篇 论文 指出 ，Nutch 的 成 功 实现 导致 它 分 裂 成 为 两 个 独立 的 工程 ， 其 中 第 二 个 工程 演变 为 了 Apache 社 区 的 一 级 项 目 
Hadoop。 


在 这 一 部 分 ， 我 们 将 从 架构 的 角度 去 看 Hadoop， 研 究 工业 领域 如 何 使 用 它 ， 并 且 思 考 它 的 缺陷 。 阅 读 完 这 部 分 后 ， 我 们 将 
介绍 如 何 安装 Hadoop 以 及 运行 MapReduce 任 务 。 


从 图 5-2 来 看 ，Hadoop 本 质 上 是 一 个 分 布 式 主 从 架构 他 ， 它 主要 由 以 下 几 部 分 组 件 组 成 。 


YARN (Hadoop HDFS 主 节 点 负责 
资源 管理 器 ) 主 节 MapReduce 主 节 把 数据 分 块 存储 到 各 
点 ， 维 持 着 各 个 点 负责 组 织 计算 应 个 从 节点 上 并 且 维 持 
YARN 应 用 程序 的 该 在 哪个 从 节点 上 着 每 一 份 数据 存在 哪 
实际 工作 计划 执行 个 节点 上 的 关系 
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YARN 主 节点 MapReduce 主 节点 HDFS 主 节点 
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图 5-2 Hadoop 2 主 从 架构 
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" Hadoop 分 布 式 文件 系统 (HDFS) 用 于 数据 存储 。 


Yet Another Resource Negotiator (YARN) ， 在 Hadoop 2 中 引入 的 ， 一 个 通用 的 调度 和 资源 管理 器 。 所 有 的 YARN 应 用 程序 
都 能 运行 在 Hadoop 集 群 上 。 


: MapReduce， 一 个 批 处 理 计算 引擎 。 在 Hadoop 2 中 ，MapReduce 实 现 为 YARN 应 用 程序 。 


Hadoop 固 有 的 特性 是 大 数据 集 的 数据 分 区 和 并 行 计 算 。 其 存储 和 计算 能 力 随 着 向 Hadoop 集 群 添加 主机 而 扩展 ， 拥 有 数 百 
个 主机 的 集群 可 以 容易 地 处 理 以 PB 为 单位 的 数据 集 。 


核心 Hadoop 组 件 


为 了 更 好 地 理解 Hadoop 的 架构 ， 我 们 首先 要 了 解 核 心 Hadoop 组 件 。 在 此 我 们 主要 研究 HDFS、YARN 和 MapReduce 架 
构 。 


WHDFS 


HDFS 是 Hadoop 的 核心 组 件 ， 是 一 个 基于 Google 文 件 系统 (GFS) 论文 模型 的 分 布 式 文件 系统 B]。HDFS 针 对 高 吞吐 量 进 
行 了 优化 ， 在 读 取 和 写 入 大 文件 〈 干 兆 字 节 及 更 大 ) 时 效果 最 佳 。 为 了 支持 这 种 吞吐 量 ，HDFS 使 用 异常 大 的 (相对 于 文件 系统 
来 说 ) 块 大 小 和 数据 本 地 性 优化 以 减少 网 络 输入 /输出 (MO) 。 


可 扩展 性 和 可 用 性 也 是 HDFS 的 关键 特性 ， 而 这 是 通过 数据 复制 和 容错 来 达到 的 。HDFS 按 照 配置 的 复制 份 数 复制 文件 ， 它 
能 够 容忍 软 硬 件 故 障 ， 并 自动 重新 复制 故障 节点 上 的 数据 块 。 


图 5-3 展 示 了 HDFS 中 组 件 的 逻辑 表示 : NameNode 和 DataNode。 它 还 演示 了 一 个 使 用 Hadoop 文 件 系 统 库 访 问 HDFS 的 应 
用 程序 。 


HDFS 客户 端 向 HDFS NameNode 
NameNode 请 求 元 在 中 存 中 保存 者 文件 
数据 对 应 关系 和 对 系统 的 元 数据 ， 例 如 
应 的 用 于 读 取 和 写 哪个 DataNode 管 理 
入 的 数据 节点 着 文件 的 数据 块 


NameNode 


/tmp/filel.txt 
客户 应 用 程序 


Hadoop 文件 4 DataNode 3 
系统 客户 端 


DataNode 2 



















DataNode 1 DataNode 2 DataNode 3 


DataNode 之 文件 由 多 个 数据 块 组 成 ， 每 个 文 
间 互 相通 信 进 件 会 有 多 个 备份 ， 这 意味 着 每 个 文 
行文 件 读 写 件 会 有 很 多 同样 的 数据 块 副本 


图 5-3 ”HDFS 客 户 端 与 主 NameNode 和 从 DataNode 进 行 通信 


Hadoop 2 为 HDFS 引 入 了 两 个 重要 的 新 功能 一 一 联盟 (Federation) 和 高 可 用 性 (High Available，AH) : 





Federation 允 许 在 多 个 NameNode 主 机 之 间 共 享 HDFS 元 数据 ， 这 有 助 于 HDFS 增 强 可 扩展 性 ， 并 且 还 提供 数据 隔离 一 一 允许 


不 同 的 应 用 程序 或 团队 运行 自己 的 NameNode， 而 不 必 担 心 影响 同一 集群 上 的 其 他 NameNode。 


HDFS HA 消除 了 Hadoop 1 中 存在 的 单 点 故障 ， 其 中 NameNode 宕 机 将 导致 集群 中 断 。HDFS HA 还 提供 了 主 备 自动 切换 的 能 
力 (备用 NameNode 从 故障 的 主 NameNode 接 管 工作 的 过 程 ) 。 


现在 你 有 了 一 点 HDFS 的 知识 ， 再 来 看 看 YARN 一 一 Hadoop 的 调度 器 。 

@YARN 

YARN 是 Hadoop 的 分 布 式 资源 调度 器 ， 是 Hadoop 2 的 新 功能 ， 用 于 应 对 Hadoop 1 架构 的 以 下 挑战 。 
大 于 4000 个 节点 的 部 署 遇 到 可 扩展 性 问题 ， 并 且 添 加 节点 并 未 产生 预期 的 线性 性 能 改进 

: 仅 支持 MapReduce 任 务 ， 这 意味 着 它 不 适合 运行 例如 通常 需要 和 迭代 计算 的 机 器 学 习 算法 的 任务 。 


Hadoop 2 通过 从 MapReduce 提 取 调 度 函 数 并 将 其 重新 构建 为 通用 应 用 程序 调度 器 ( 称 为 YARN) 来 解决 这 些 问 题 。 通 过 
此 更 改 ，Hadoop 集 群 不 再 受 限 于 运行 MapReduce 任 务 。YARN 提 供 一 组 新 的 工作 模型 从 而 使 其 能 够 在 Hadoop 上 原生 地 支 
持 。 

YARN 的 架构 很 简单 ， 因 为 它 的 主要 作用 只 是 在 Hadoop 集 群 中 调度 和 管理 资源 。 图 5-4 显 示 了 YARN 中 核心 组 件 的 逻辑 表 
示 : ResourceManager 和 NodeManager。 同 时 还 展示 了 专用 于 YARN 应 用 的 组 件 ， 即 YARN 应 用 客户 端 、ApplicationMaster 
和 执行 容器 (container) 。 


资源 管理 者 是 YARN 的 主 进程 ， NodeManager 是 运行 在 各 


它 负 责 计划 和 管理 资源 ， 这 些 资 个 节点 上 的 YARN 从 进程 
源 通 销 叫 做 执行 容 需 它 负责 载 和 信和 管理 执行 容器 


YARN 客户 端 负责 
创建 YARN 应 用 程序 


资源 管理 者 节点 管理 者 
而 (ResourceManager) (NodeManager) 







应 用 主任 务 
(Application Master) 
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执行 容 需 (Container ) 


ApplicationMaster 是 由 ResourceManager 执行 容 需 是 YARN 属于 
创建 的 ， 它 负责 申请 执行 需 来 完成 特定 应 ”特定 应 用 的 进程 ， 它 负责 执 
用 的 任务 行 一 些 与 应 用 相关 的 功能 


图 5-4 核心 YARN 组 件 和 YARN 应 用 程序 组 件 之 间 的 通信 模型 


为 了 完全 实现 通用 分 布 式 平台 的 梦想 ，Hadoop 2 引入 了 另 一 个 变化 一 一 在 各 种 配置 中 分 配 容器 的 能 力 。Hadoop 1 
有 “slot” 的 概念 ， 一 个 节点 的 slot 的 数量 用 来 表示 某 个 节点 的 资源 的 容量 。 这 在 集群 利用 率 方 面 是 浪费 的 ， 并 且 导 致 
MapReduce 操 作 期 间 资源 未 充分 利用 ， 并 且 还 对 map 和 reduce 任 务 施加 了 内 存 限制 。 使 用 YARN，ApplicationMaster 请 求 的 
每 个 容器 可 以 具有 不 同 的 内 存 和 CPU 性 能 ， 这 使 ARN 应 用 程序 可 以 完全 控制 它们 完成 工作 所 需 的 资源 。 


接 下 来 介绍 MapReduce 一 一 Hadoop 的 计算 引擎 。 


@MapReduce 


MapReduce 是 一 个 参考 Google 的 MapReduce 论 文 而 设计 的 基于 批 处 理 的 分 布 式 计 算 框架 和 内。 它 支 持 对 大 量 原始 数据 进行 
并 行 处 理 ， 例 如 将 Web 日 志 与 OLTP 数 据 库 中 的 关系 数据 进行 组 合 查询 ， 以 模拟 用 户 与 你 网 站 的 互动 情况 。 这 种 类 型 的 工作 ， 使 
用 传统 的 串 行 编程 技术 可 能 需要 几 天 或 更 长 时 间 ， 使 用 MapReduce 在 Hadoop 集 群 上 几 分 钟 就 可 以 完成 。 


MapReduce 模 型 通过 把 分 布 式 系统 中 涉及 的 复杂 性 抽象 为 通用 模块 来 简化 并 行 处 理 ， 例 如 计算 并 行 化 ， 以 及 处 理 不 可 靠 的 
硬件 和 软件 带 来 的 异常 。 通 过 这 种 抽象 ，MapReduce 人 允许 程序 员 专 注 于 解决 业务 需求 ， 而 不 是 纠结 于 分 布 式 问题 。 


MapReduce 将 客户 端 提交 的 工作 分 解 为 小 的 并 行 化 的 map 和 reduce 任 务 ， 如 图 5-5 所 示 。MapReduce 中 使 用 的 map 和 
reduce 结 构 借鉴 于 Lisp 函 数 编程 语言 ， 它 们 使 用 无 共享 模型 来 删除 并 行 执行 的 相互 依赖 性 ， 这 些 依赖 性 可 能 增加 不 必要 的 同步 


程序 员 的 作用 是 定义 map 和 reduce 逊 数 ， 其 中 map 函 数 输出 键 / 值 元 组 ， 这 些 元 组 由 reduce 遂 数 处 理 以 产生 最 终 输出 。 图 
5-6 显 示 了 map 遂 数 的 输入 和 输出 的 伪 代 码 定义 。 


客户 端 提交 一 
MapReduce 任 。 





MapReduce 应 用 主任 





成 Map 和 Reduce 任务 ， 并 
将 这 此 任务 分 发 到 各 个 从 市 
上 护 上 远程 执行 





图 5-5 ”客户 端 向 MapReduce 提 交 作 业 ，MapReduce 将 工作 拆 分 为 小 map 和 reduce 任 务 


map 子 数 的 输入 是 一 个 代表 输入 数据 
源 记 录 的 key/value 对 。 当 输入 的 是 一 个 
文件 时 ， 它 可 能 是 文件 的 一 行内 容 ， 当 
它 是 表格 或 者 数据 库 时 ， 它 可 能 是 一 列 





map (keyl, valuel ) — > list (key2, value2 ) 


map 函数 对 输入 的 一 个 key/value 对 可 能 返回 0 或 
者 或 多 个 key/value 对 。 例 如 ， 如 果 map 晒 数 是 一 
个 过 滤 性 的 map 函数 ， 它 只 会 在 满足 过 滤 条 件 时 有 
输出 。 又 或 者 它 执行 一 个 分 解 操 作 ， 这 样 输入 的 一 
个 key/value 对 就 会 对 应 地 输出 多 个 key/value 对 


图 5-6 使 用 键 / 值 对 作为 输入 的 map 函 数 的 逻辑 视图 
MapReduce 的 强大 体现 在 map 输 出 和 reduce 输 入 之 间 的 shuffle 和 sort 阶 段 ， 如 图 5-7 所 示 。 


shuffle 和 sort 阶段 负责 两 个 主要 的 活动 ， 其 中 一 个 是 决定 
哪个 reducer 应 该 收 到 某 个 map 输出 的 key/value 对 ， 另 外 一 
个 是 保证 一 个 reducer 收 到 的 所 有 key/value 对 都 是 经 过 排序 的 
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的 key 都 是 经 过 排序 的 
个 key/value 对 又 作为 reducer 的 输入 


map output shuffle + sort sorted reduce input 
cat, docl > . 
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图 5-7 MapReduce 的 shuffle 和 sort 阶 段 


图 5-8 展 示 了 reduce 函 数 的 伪 代 码 定义 。 


每 一 个 map 冰 数 产 map 男 数 通过 所 有 mapper 


生 的 不 同 的 key 都 会 方 点 输出 的 key2 的 值 都 存 
调用 一 次 reduce 函数 入 了 一 个 集合 中 
reduce (key2, list (value2’s)) 一 list (key3, value3 ) 


像 map 函数 一 样 ，reduce 可 以 输出 零 到 多 个 
key/value 对 ，reducer 可 以 输出 到 HDFS 上 的 多 个 
文件 ， 可 以 插入 或 更 新 非 关 系 型 数据 库 ， 还 可 以 
写 人 任何 数据 接收 硕 中 ， 这 都 取决 于 任务 的 要 求 


图 5-8 teduce 函 数 的 逻辑 视图 ， 为 文件 、NoSQL 数 据 库 或 任何 数据 池 生成 输出 


随 着 YARN 在 Hadoop 2 中 的 出 现 ，MapReduce 被 重 写 为 YARN 应 用 程序 ， 现 在 称 为 MapReduce 2 (或 MRv2) 。 从 开发 
人 员 的 角度 来 看 ，Hadoop 2 中 的 MapReduce 的 工作 方式 与 Hadoop 1 中 的 一 样 ， 为 Hadoop 1 编写 的 代码 将 在 Hadoop 2 中 不 
进行 代码 更 改 就 可 以 运行 [ol。 


在 掌握 了 一 些 Hadoop 基 础 之 后 ， 现 在 我 们 再 来 看 一 人 Hadoop 生 态 系统 。 


2.Hadoop 生 态 系统 
Hadoop 生 态 系统 是 多 样 化 的 ， 并 且 日 益 增 长 ， 我 们 不 可 能 跟踪 Hadoop 相 关 的 所 有 项 目 。 本 书 将 重点 介绍 用 户 使 用 最 多 的 


Hadoop 工 具 ， 如 图 5-9 所 示 。 


高 阶 语言 可 选 处 理 软件 
Scalding : 二 二 1 Spatk mit 百花 齐 放 
! bs Sqoop | 


时 


图 5-9 ”本 书 中 涉及 的 Hadoop 及 其 相关 技术 


许多 Hadoop 相 关 项 目的 目标 是 使 得 程序 员 和 非 程序 员 更 容易 使 用 Hadoop。 


Hadoop 生 态 系统 日 益 增 长 ， 通 常 有 多 个 工具 具有 相同 的 功能 和 好 处 。 本 书 的 目标 是 提供 涵盖 核心 Hadoop 技 术 的 实践 经 
验 ， 以 及 如 何 选择 Hadoop 生 态 系统 中 至 关 重 要 的 技术 。 现 在 让 我 们 来 看 看 集群 的 硬件 要 求 。 


3 硬件 需求 


术语 “商用 硬件 ”通常 用 于 描述 Hadoop 硬 件 要 求 。 的 确 ，Hadoop 可 以 运行 在 任何 旧 的 服务 器 上 ， 但 你 仍然 希望 集群 运行 
良好 ， 你 不 想 运 莒 部 门 淹没 在 诊断 和 修复 大 量 硬件 问题 上 上。 因此， 商用 硬件 是 指 具 有 双 插 模 的 中 级 机 架 式 服务 器 、 尽 可 能 多 的 
RAM 以 及 针对 RAID 存 储 进 行 过 优化 的 SATA 硬 盘 。 在 用 于 存储 HDFS 内 容 的 DataNode 文 件 系统 上 使 用 RAID 是 强烈 不 建议 的 ， 
因为 HDFS 已 经 内 置 了 复制 和 错误 检查 机 制 。 在 NameNode 上 ， 强 烈 建议 使 用 RAID 以 提高 安全 性 [/]。 


对 于 交换 机 和 防火 墙 ， 所 有 主 节点 和 从 节点 必须 能 够 打开 彼此 的 连接 。 


对 于 小 型 集群 ， 所 有 主机 需要 使 用 干 兆 网 卡 连接 到 单个 高 性 能 交换 机 。 对 于 大 型 集群 ， 需 要 使 用 万 兆 交换 机 并 且 该 交换 机 至 
少 需要 有 多 个 1GB 上 行 链 路 到 双 中 心 交换 机 。 客 户 端 节点 还 需要 能 够 与 所 有 主 节点 和 从 节点 通信 ， 但 是 如 果 需 要 ， 可 以 要 求 从 客 
户 端 建立 的 连接 必须 要 经 过 防火 墙 。 

从 软件 和 硬件 角度 审视 Hadoop 之 后 ， 你 可 能 已 经 了 解 了 谁 可 以 从 Hadoop 中 获 益 。 一 旦 开始 使 用 Hadoop， 你 需要 选择 一 
个 分 发 版 使 用 ， 这 是 下 一 个 主题 。 


4. 谁 在 使 用 Hadoop 


Hadoop 在 高 科技 公司 中 具有 很 高 的 渗透 率 ， 并 且 开始 在 广泛 的 行业 中 取得 进展 ， 包 括 企业 (比如 Booz Allen Hamilton、 
摩根 大 通 ) 、 政 府 (比如 NSA) 和 医疗 保健 行业 。 


Facebook 使 用 Hadoop、Hive 和 HBase 提 供 数据 仓库 和 实时 应 用 程序 服务 J。Facebook 的 数据 仓库 集群 的 规模 达到 了 PB 
级 ， 拥 有 数 干 个 节点 ， 并 且 它 们 使 用 单独 的 基于 HBase 的 实时 集群 进行 消息 传递 和 实时 分 析 。 


雅虎 使 用 Hadoop 进 行 数据 分 析 、 机 器 学 习 、 搜 索 排名 、 电 子 邮件 反 垃 圾 邮件 、 广 告 优化 、ETLI9] 等 。 它 有 超过 40000 台 服 
务 器 运行 Hadoop， 和 存储 超过 170PB。 雅 虎 还 拥有 第 一 个 大 规模 YARN 集 群 ， 集 群 高 达 4000 个 节点 [10], 
Twitter 是 一 个 主要 的 大 数据 创新 者 ， 它 已 经 为 Hadoop 做 出 了 显著 的 贡献 ， 项 目 包括 Scalding (用 于 级 联 的 Scala API) 、 


Summingbird (用 于 实现 Nathan Marz 的 lambda 架 构 的 组 件 ) 和 各 种 其 他 珍贵 的 项 目 ， 如 Bijection、Algebird 和 Elephant 
Bird。 


一 些 其 他 公司 或 组 织 ， 包 括 eBay、 三 星 、Rackspace、J.P.Morgan、Groupon、LinkedIn、AOL、Spotify 和 
StumbleUpon 等 ， 也 大 量 投资 Hadoop。 微 软 在 与 Hortonworks 合 作 ， 确 保 Hadoop 能 在 其 平台 上 运行 。 


谷歌 在 其 MapReduce 论 文中 表示 ， 它 使 用 Caffeinel11] (谷歌 的 MapReduce 版 本 ) 来 抓 取 数据 并 创建 Web 索 引 。 谷 歌 还 
强调 了 他 们 的 MapReduce 的 应 用 程序 ， 包 括 诸如 分 布 式 grep、URL 访 问 频率 (来 自 日 志 数据 ) 和 术语 向 量 算法 (其 确定 主机 的 
热门 关键 词 ) 。 


使 用 Hadoop 的 组 织 数量 每 天 都 在 增长 ， 如 果 你 在 财富 500 强 公司 工作 ， 你 几乎 肯定 会 使 用 一 些 Hadoop 集 群 。 很 明显 ， 随 
着 Hadoop 继 续 成 熟 ， 它 的 采用 将 继续 增长 。 


与 所 有 技术 一 样 ， 能 够 有 效 使 用 Hadoop 的 天 键 在 于 了 解 其 缺陷 ， 然 后 在 设计 和 构建 解决 方案 时 尽 可 能 避免 这 些 缺 陷 。 


5.Hadoop 的 缺陷 
高 可 用 性 和 安全 性 通常 是 Hadoop 使 用 中 最 受 关注 的 问题 之 一 。 这 些 问题 许多 已 经 在 Hadoop 2 中 得 到 解决 ;让 我 们 仔细 看 
看 它 的 版 本 2.7 的 一 些 弱点 。 


使 用 Hadoop 1 和 更 早 版 本 的 企业 注意 到 其 缺乏 高 可 用 性 。 在 Hadoop 1 中 ， 所 有 主 进 程 都 是 单 点 ， 这 意味 着 主 进程 中 的 故 
障 会 导致 中 断 。 在 Hadoop 2 中 ，HDFS 具 有 高 可 用 性 ， 而 MapReduce 与 YARN 的 重 构 已 经 消除 了 单 点 故障 。Hadoop 1 已 有 企 
业 级 安全 配置 ， 但 是 默认 配置 是 不 安全 的 。 有 必要 指出 ， 现 有 主要 分 布 式 系统 的 默认 配置 都 是 不 安全 的 。 

(1) 高 可 用 性 

高 可 用 性 通常 在 具有 高 SLA 要 求 的 企业 组 织 中 强制 要 求 ， 以 确保 即使 在 节点 由 于 计划 内 或 计划 外 停止 的 情况 下 系统 始终 运 
行 。 在 Hadoop 2 之 前 ， 主 HDFS 进 程 只 能 在 单个 节点 上 运行 ， 导 致 单 点 故障 [1 站 。Hadoop 2 提供 了 NameNode 高 可 用 性 
(HA) 支持 ， 这 意味 着 同一 Hadoop 集 群 可 以 运行 多 个 NameNode。 使 用 当前 设计 ， 一 个 NameNode 是 活跃 的 ， 而 另 一 个 
NameNode 被 指定 为 备用 进程 。 如 果 活跃 NameNode 遇 到 计划 内 或 计划 外 中 断 ， 备 用 NameNode 将 接管 作为 活路 


NameNode， 这 是 一 个 称 为 失效 备 援 (failover) 的 机 制 。 此 失效 备 援 可 以 配置 为 自动 的 ， 不 需要 人 工 干预 。 发 生 NameNode 
失效 备 援 对 Hadoop 客 户 端 是 透明 的 。 


MapReduce 主 进程 (JobTracker) 在 Hadoop 2 中 没有 HA 支持 ， 但 既然 每 个 MapReduce 作 业 都 有 自己 的 JobTracker 进 程 
(一 个 单独 的 YARN Application-Master) ， 那 么 HA 支持 可 能 并 不 重要 。Hadoop 2.4 起 Resource Manager HA 也 有 了 支持 。 


然而 ，YARN 主 进程 (ResourceManager) 中 的 HA 支持 很 重要 ， 目 前 正在 开发 此 功能 ， 未 来 将 添加 到 Hadoop 中 [13]。 
(2) 多 数据 中 心 


多 数据 中 心 支持 是 企业 软件 中 日 益 受 到 期 待 的 男 一 个 关键 功能 ， 因 为 它 提供 强大 的 数据 保护 和 本 地 性 (因为 数据 在 多 个 数据 
中 心中 进行 复制 ) 。 


Apache Hadoop 及 其 大 多 数 商 业 发 行 版 本 从 未 支持 多 个 数据 中 心 ， 这 给 在 多 个 数据 中 心中 运行 软件 的 组 织带 来 了 挑战 。 
WANdisco 是 目前 唯一 可 用 于 Hadoop 多 数据 中 心 支持 的 解决 方案 。 


(3) 安全 


Hadoop 提 供 了 一 个 安全 模型 ， 但 上 默认 情况 下 它 被 禁用 。 禁 用 安全 模型 后 ，Hadoop 中 存在 的 唯一 安全 功能 是 HDFS 文 件 和 
目录 级 别 的 权限 控制 。 


但 恶意 用 户 很 容易 颠覆 和 假冒 其 他 用 户 的 身份 。 默 认 情 况 下 ， 所 有 其 他 Hadoop 服 务 都 是 开放 的 ， 人 允许 任何 用 户 执行 任何 类 
型 的 操作 ， 例 如 结束 另 一 个 用 户 的 MapReduce 作 业 。 


Hadoop 可 以 配置 为 与 Kerberos 一 起 运行 ，Kerberos 是 一 种 网 络 身份 验证 协议 ， 需 要 Hadoop 守 护 程序 对 用 户 和 其 他 
Hadoop 组 件 进 行 身份 验证 。Kerberos 可 以 与 现 有 的 Active Directory 集 成 ， 从 而 为 用 户 提供 单 点 登录 体验 。 启 用 Kerberos 时 需 
要 小 心 ， 因 为 任何 希望 与 集群 交互 的 Hadoop 工 具 都 需要 支持 Kerberos。 


线 级 加 密 (Wire-level encryption) 可 以 在 Hadoop 2 中 配置 ， 并 允许 跨越 网 络 (HDFS 传 输 14 和 MapReduce 
shuffle[13]) 的 数据 被 加 密 。Hadoop 中 当前 缺少 静态 数据 加 密 (磁盘 上 HDFS 存 储 的 数据 ) 。 


让 我 们 来 看 看 一 些 个 别 系统 的 局 限 性 。 


HDFS 


HDFS 的 弱点 主要 是 它 缺 乏 高 可 用 性 (在 Hadoop 1.x 和 更 早 版 本 中 ) 、 对 小 文件 的 低 效 处 理 [16] 以 及 缺乏 透明 压缩 。HDFS 
不 支持 对 文件 的 随机 写 入 ( 仅 支持 追加 ) ， 并 且 它 通常 设计 为 支持 对 大 文件 的 高 吞吐 量 顺 序 读 取 和 写 入 。 


MapReduce 


MapReduce 是 一 个 基于 批 处 理 的 架构 ， 这 意味 着 它 不 适用 于 需要 实时 数据 访问 的 用 例 。 需 要 全 局 同步 或 共享 可 变数 据 的 任 
务 不 适合 MapReduce， 因 为 它 是 一 个 无 共享 架构 ， 该 架构 可 能 会 对 某 些 算法 构成 挑战 。 


版 本 不 兼容 


Hadoop 2 版 本 带 来 了 一 些 令 人 头疼 的 MapReduce API 运 行 时 兼容 性 问题 ， 特 别 是 在 org.hadoop.mapreduce 包 中 ,在 
Hadoop 1 (和 更 早 版 本 ) 基础 上 编译 的 代码 通常 导致 运行 时 问题 。 解 决 方案 通常 是 针对 Hadoop 2 重新 编译 。 


Hive 和 Hadoop 的 其 他 挑战 也 人 存在，Hive 可 能 需要 重新 编译 以 使 用 不 同 Hadoop 的 版 本 。Pig 也 有 兼容 性 问题 。 例 如 ，Pig 
0.8 版 本 不 适用 于 Hadoop 0.20.203， 需 要 手动 干预 来 解决 这 个 问题 。 这 是 使 用 除 Apache 之 外 的 Hadoop 发 行 版 的 优点 之 一 ， 
为 这 些 兼 容 性 问题 已 得 到 修复 。 如 果 希 望 使 用 Apache 发 行 版 ， 那 么 值得 看 看 Bigtop (http://bigtop.apache.org/) ， 这 是 一 个 
Apache 开 源 的 自动 化 构建 系统 。 它 包括 所 有 主要 的 Hadoop 生 态 系统 组 件 ， 并 运行 多 个 集成 测试 ， 以 确保 它们 彼此 协同 工作 。 


[1] Nutch 工程 乃至 它 的 扩展 Hadoop， 是 由 Doug Cutting 和 Mike Cafarella 领导 的 。 

D] 一 个 mastet 进程 控制 一 个 或 多 个 slave 进程 的 通信 模型 。 

[3] 请 查看 “The Google File System” : http://research.google.com/archive/gfs.html。 

[4] 请 查看 论文 “MapReduce: Simplified Data Processing on Large Clusters” : http://research.google.com/archive/mapreduce.html。 

[5] 无 共享 架构 是 一 种 分 布 式 计 算 概念 ， 表 示 每 个 节点 是 独立 的 。 

[6] 有 些 代 码 可 能 需要 针对 Hadoop 2 二 进 制 文件 重新 编译 才能 使 用 MRv2， 有 关 详 细 信 息 。 

D] HDFS 使 用 磁盘 持久 存储 文件 系统 的 元 数据 。 

[8] 参见 Dhruba Borthakut 的 “ Looking at the code behind our three uses of Apache Hadoop” : http://mng.bz/4cMc。Facebook 还 开发 
了 自己 的 名 为 Presto 的 SQL-on-Hadoop 工具 ， 并 且 正 在 远离 Hive (参见 Martin Travetso， “ Presto: Interacting with petabytes of data 
at Facebook” , http://mng.bz/pOXz) 。 

[9] 抽取 、 和 转换 和 加 载 (ETL) 是 从 外 部 源 提取 数据 ， 根 据 项 目 需 要 进行 转换 ， 并 加 载 到 目标 数据 池 的 过 程 。ETL 是 数据 仓库 中 
的 常见 过 程 。 

[10] 在 Vinod Kumar Vavilapalli 等 人 的 “ Apache Hadoop YARN : Yet Another Resoutce 
Negotiator” (www.cs.cmu.edu/~garth/15719/papers/yarn.pdf) 中 有 关于 YARN 及 其 在 雅虎 应 用 的 更 多 细节 。 

[11] 在 2010 年 ， 谷 歌 实 现 了 一 个 叫做 Caffeine 的 实时 索引 系统 ;请 在 2010 年 6 月 8 日 的 谷歌 博客 上 查看 “ Outr new seatch index: 
Caffeine ” : http:// googleblog.blogspot.com/2010/06/our-newsearch-index-caffeine.html。 

[12] 实际 上 ，HDEFS 的 单 点 故障 可 能 不 是 很 严重 ; 。 参见 Suresh Srinivas 和 Aaron 了 T.Myers 的 “NameNode HA”: 
http:/ /goo.gl/1iSab。 

[13] 有关 YARN HA 支持 的 其 他 详细 信息 ， 请 参阅 名 为 “ ResourceManager (RM) High-Availability (HA) ，” 的 JIRA: 
https://issues.apache.org/jira/ browse/YARN-149。 

[14] 请 参见 JIRA “Add suppott for encrypting the DataTransferProtocol” : https://issues.apache.org/jira/browse/HDFS-3637。 

[15] 请 参见 JIRA “Add suppott for encrypted shuffl e” : https://issues.apache.org/jira/browse/MAPREDUCE-4417。 





[16] 尽管 Hadoop 2 中 的 HDFS Federation 已 经 为 多 个 NameNode 引入 了 共享 文件 元 数据 的 方法 ， 但 是 事实 仍然 是 元 数据 存储 在 内 存 
中 。 


第 5 草 ”大 数据 分 析 工 具 


5.1 Apache Hadoop 


本 节 将 介绍 Hadoop 核 心 系统 如 何 工作 ， 并 概述 Hadoop 的 生态 系统 。 


Hadoop 和 凭借 高 效 存 储 与 计算 海量 数据 的 能 力 填充 了 市 场 的 空白 。 它 是 由 分 布 式 文件 系统 以 及 提供 在 集群 中 并 行 执行 程序 能 
力 的 分 布 式 计算 系统 组 成 的 ( 见 图 5-1) 。 你 很 可 能 偶然 听 说 过 Hadoop， 因 为 它 已 经 被 Yahoo! 、Facebook 和 Twitter 这 些 科 
技 巨 头 用 于 满足 它们 的 大 数据 需求 ， 并 且 已 经 被 用 于 几乎 所 有 的 工业 领域 。 


{0 MapReduce: 基于 批 处 
理 的 分 布 式 计算 框 染 


分 布 计 算 由 一 一 
分布 式 存储 |4 一 ”一 ~、 


人 好 
服务 器 、 云 计算 HDFS: 分 布 式 文件 系统 


Hadoop 能 够 在 通用 便 件 上 运行 


图 5-1 ”Hadoop 是 运行 于 商业 硬件 之 上 的 分 布 式 系统 
1. 什 么 是 Hadoop 


Hadoop 是 一 个 提供 了 分 布 式 存储 与 计算 能 力 的 平台 。Hadoop 的 原本 构想 是 用 于 解决 开源 怜 虫 搜索 引擎 Nutch[1] 存 在 的 扩 
展 性 问题 。 那 时 ， 谷 歌 发 表 了 一 篇 论文 ， 在 这 篇 论文 中 ， 描 述 了 它 的 传奇 的 分 布 式 文件 系统 GFS 和 并 行 计算 框架 MapReduce。 
这 篇 论文 指出 ，Nutch 的 成 功 实现 导致 它 分 裂 成 为 两 个 独立 的 工程 ， 其 中 第 二 个 工程 演变 为 了 Apache 社 区 的 一 级 项 目 
Hadoop。 


在 这 一 部 分 ， 我 们 将 从 架构 的 角度 去 看 Hadoop， 研 究 工 业 领 域 如 何 使 用 它 ， 并 且 思 考 它 的 缺陷 。 阅 读 完 这 部 分 后 ， 我 们 将 
介绍 如 何 安装 Hadoop 以 及 运行 MapReduce 任 务 。 


从 图 5-2 来 看 ，Hadoop 本 质 上 是 一 个 分 布 式 主 从 架构 他 ， 它 主要 由 以 下 几 部 分 组 件 组 成 。 


YARN ( Hadoop 


HDFS 主 节点 负责 
资源 管理 器 ) 主 节 


MapReduce 主 市 


把 数据 分 块 存储 到 各 
点 ， 维 持 着 各 个 点 负责 组 织 计 算 应 个 从 节点 上 并 且 维 持 
YARN 应 用 程序 的 该 在 哪个 从 市 点 上 着 每 一 份 数 据 存 在 哪 
实际 工作 计划 执行 个 节点 上 的 关系 
YARN 主 节 点 


MapReduce 主 节点 


点 HDFS 主 节 点 


二 
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HDFS 从 节点 
HDFS 从 节点 
HDFS 从 节点 


YARN 从 节点 MapReduce 从 节点 
YARN 从 节点 MapReduce 从 节点 


YARN 从 节点 MapReduce 从 市 点 


图 5-2 Hadoop 2 主 从 架构 





* Hadoop 分 布 式 文件 系统 (HDFS) 用 于 数据 存储 。 


“Yet Another Resource Negotiator (YARN) ， 在 Hadoop 2 中 引入 的 ， 一 个 通用 的 调度 和 资源 管理 器 。 所 有 的 YARN 应 用 程序 
都 能 运行 在 Hadoop 集 群 上 。 


: MapReduce， 一 个 批 处 理 计算 引擎 。 在 Hadoop 2 中 ，MapReduce 实 现 为 YARN 应 用 程序 。 


Hadoop 固 有 的 特性 是 大 数据 集 的 数据 分 区 和 并 行 计 算 。 其 存储 和 计算 能 力 随 着 向 Hadoop 集 群 添加 主机 而 扩展 ， 拥 有 数 百 
个 主机 的 集群 可 以 容易 地 处 理 以 PB 为 单位 的 数据 集 。 


核心 Hadoop 组 件 
为 了 更 好 地 理解 Hadoop 的 架构 ， 我 们 首先 要 了 解 核心 Hadoop 组 件 。 在 此 我 们 主要 研究 HDFS、YARN 和 MapReduce 架 
构 。 


GOHDF9 


HDFS 是 Hadoop 的 核心 组 件 ， 是 一 个 基于 Google 文 件 系统 (GFS) 论文 模型 的 分 布 式 文件 系统 B]。HDFS 针 对 高 吞吐 量 进 


行 了 优化 ， 在 读 取 和 写 入 大 文件 ( 干 兆 字 节 及 更 大 ) 时 效果 最 佳 。 为 了 支持 这 种 吞吐 量 ，HDFS 使 用 异常 大 的 (相对 于 文件 系统 
来 说 ) 块 大 小 和 数据 本 地 性 优化 以 减少 网 络 输入 /输出 (MO) 。 


可 扩展 性 和 可 用 性 也 是 HDFS 的 关键 特性 ， 而 这 是 通过 数据 复制 和 容错 来 达到 的 。HDFS 按 照 配置 的 复制 份 数 复制 文件 ， 它 
能 够 容忍 软 硬 件 故 障 ， 并 自动 重新 复制 故障 节点 上 的 数据 块 。 


图 5-3 展 示 了 HDFS 中 组 件 的 逻辑 表示 : NameNode 和 DataNode。 它 还 演示 了 一 个 使 用 Hadoop 文 件 系 统 库 访 问 HDFS 的 应 
用 程序 。 


HDFS 客户 端 向 HDFS NameNode 


NameNode 请 求 元 在 内 存 中 保存 着 文件 
数据 对 应 关系 和 对 系统 的 元 数据 ， 例 如 
应 的 用 于 读 取 和 写 哪个 DataNode 管  / 
入 的 数据 节点 着 文件 的 数据 块 


NameNode 


DataNode 2 






/tmp/filel .txt 
客户 应 用 程序 


Hadoop 文件 | DataNode 3 
系统 客户 端 上 















DataNode 1 DataNode 2 DataNode 3 


DataNode 之 文件 由 多 个 数据 块 组 成 ， 每 个 文 
间 互 相通 信 进 件 会 有 多 个 备份 ， 这 意味 着 每 个 文 
行文 件 读 写 件 会 有 很 多 同样 的 数据 块 副本 


图 5-3 HDFS 客 户 端 与 主 NameNode 和 从 DataNode 进 行 通信 


Hadoop 2 为 HDFS 引 入 了 两 个 重要 的 新 功能 联盟 (Federation) 和 高 可 用 性 (High Available，AH) : 





Federation 允 许 在 多 个 NameNode 主 机 之 间 共 享 HDFS 元 数据 ， 这 有 助 于 HDFS 增 强 可 扩展 性 ， 并 且 还 提供 数据 隔离 一 一 允许 


不 同 的 应 用 程序 或 团队 运行 自己 的 NameNode， 而 不 必 担 心 影响 同一 集群 上 的 其 他 NameNode。 


` HDFS HA 消除 了 Hadoop 1 中 存在 的 单 点 故障 ， 其 中 NameNode 宕 机 将 导致 集群 中 断 。HDFS HA 还 提供 了 主 备 自动 切换 的 能 


力 ( 备 用 NameNode 从 故障 的 主 NameNode 接 管 工作 的 过 程 ) 。 
现在 你 有 了 一 点 HDFS 的 知识 ， 再 来 看 看 YARN 一 一 Hadoop 的 调度 器 。 
Q@YARN 
YARN 是 Hadoop 的 分 布 式 资源 调度 器 ， 是 Hadoop 2 的 新 功能 ， 用 于 应 对 Hadoop 1 架构 的 以 下 挑战 。 
大 于 4000 个 节点 的 部 署 遇 到 可 扩展 性 问题 ， 并 且 添 加 节点 并 未 产生 预期 的 线性 性 能 改进 。 
. 仅 支持 MapReduce 任 务 ， 这 意味 着 它 不 适合 运行 例如 通常 需要 和 迭代 计算 的 机 器 学 习 算 法 的 任务 。 


Hadoop 2 通过 从 MapReduce 提 取 调 度 函 数 并 将 其 重新 构建 为 通用 应 用 程序 调度 器 ( 称 为 YARN) 来 解决 这 些 问 题 。 通 过 
此 更 改 ，Hadoop 集 群 不 再 受 限 于 运行 MapReduce 任 务 。YARN 提 供 一 组 新 的 工作 模型 从 而 使 其 能 够 在 Hadoop 上 原生 地 支 


YARN 的 架构 很 简单 ， 因 为 它 的 主要 作用 只 是 在 Hadoop 集 群 中 调度 和 管理 资源 。 图 5-4 显 示 了 YARN 中 核心 组 件 的 逻辑 表 
示 : ResourceManager 和 NodeManager。 同 时 还 展示 了 专用 于 YARN 应 用 的 组 件 ， 即 YARN 应 用 客户 端 、ApplicationMaster 
和 执行 容器 (container) 。 


资源 管理 者 是 YARN 的 主 进程 ， NodeManager 是 运行 在 各 


它 负 责 计 划 和 管理 资源 ， 这 些 资 个 节点 上 的 YARN 从 进程 ， 
源 通 稼 叫做 执行 容 需 它 负责 载 和 信和 管理 执行 容 央 


客户 端 资源 管理 者 节点 管理 者 
my (ResourceManager ) (NodeManager) 


应 用 主任 务 
(ApplicationMaster) 










执行 容 需 (Container ) 


ApplicationMaster 是 由 ResourceManager 执行 容器 是 YARN 属于 
创建 的 ， 它 负责 申请 执行 器 来 完成 特定 应 ”特定 应 用 的 进程 ， 它 负责 执 
用 的 任务 行 一 些 与 应 用 相关 的 功能 


图 5-4 核心 YARN 组 件 和 YARN 应 用 程序 组 件 之 间 的 通信 模型 


为 了 完全 实现 通用 分 布 式 平 台 的 梦想 ，Hadoop 2 引入 了 另 一 个 变化 一 一 在 各 种 配置 中 分 配 容器 的 能 力 。Hadoop 1 
有 “slot” 的 概念 ， 一 个 节点 的 slot 的 数量 用 来 表示 某 个 节点 的 资源 的 容量 。 这 在 集群 利用 率 方面 是 浪费 的 ， 并 且 导 致 
MapReduce 操 作 期 间 资 源 未 充分 利用 ， 并 且 还 对 map 和 reduce 任 务 施加 了 内 存 限制 。 使 用 YARN，ApplicationMaster 请 求 的 
每 个 容器 可 以 具有 不 同 的 内 存 和 CPU 性 能 ， 这 使 YARN 应 用 程序 可 以 完全 控制 它们 完成 工作 所 需 的 资源 。 


接 下 来 介绍 MapReduce 一 一 Hadoop 的 计算 引擎。 


@MapReduce 


MapReduce 是 一 个 参考 Google 的 MapReduce 论 文 而 设计 的 基于 批 处 理 的 分 布 式 计 算 框架 由。 它 支持 对 大 量 原始 数据 进行 
并 行 处 理 ， 例 如 将 Web 日 志 与 OLTP 数 据 库 中 的 关系 数据 进行 组 合 查询 ， 以 模拟 用 户 与 你 网 站 的 互动 情况 。 这 种 类 型 的 工作 ， 使 
用 传统 的 串 行 编程 技术 可 能 需要 几 天 或 更 长 时 间 ， 使 用 MapReduce 在 Hadoop 集 群 上 几 分 钟 就 可 以 完成 。 


MapReduce 模 型 通过 把 分 布 式 系统 中 涉及 的 复杂 性 抽象 为 通用 模块 来 简化 并 行 处 理 ， 例 如 计算 并 行 化 ， 以 及 处 理 不 可 靠 的 
硬件 和 软件 带 来 的 异常 。 通 过 这 种 抽象 ，MapReduce 人 允许 程序 员 专 注 于 解决 业务 需求 ， 而 不 是 纠结 于 分 布 式 问题 。 


MapReduce 将 客户 端 提交 的 工作 分 解 为 小 的 并 行 化 的 map 和 reduce 任 务 ， 如 图 5-5 所 示 。MapReduce 中 使 用 的 map 和 
reduce 结 构 借鉴 于 Lisp 函 数 编程 语言 ， 它 们 使 用 无 共享 模型 来 删除 并 行 执行 的 相互 依赖 性 ， 这 些 依赖 性 可 能 增加 不 必要 的 同步 
点 或 状态 共享 P]。 


程序 员 的 作用 是 定义 map 和 reduce 浮 数 ， 其 中 map 函 数 输出 键 / 值 元 组 ， 这 些 元 组 由 reduce 冰 数 处 理 以 产生 最 终 输 出 。 图 
5-6 显 示 了 map 消 数 的 输入 和 输出 的 伪 代 码 定 义 。 


客户 端 提交 一 个 
MapReduce 任务 






MapReduce 应 用 主任 


务 (MRAppMaster) 
2 把 任务 分 解 
和 不 Map 和 Reduce 任务 ， 并 
分 解 任务 将 这 此 任务 分 发 到 各 个 从 节 
点 上 远程 执行 








图 5-5 ”客户 端 向 MapReduce 提 交 作 业 ，MapReduce 将 工作 拆 分 为 小 map 和 reduce 任 务 


map 子 数 的 输入 是 一 个 代表 输入 数据 
源 记录 的 key/value 对 。 当 输入 的 是 一 个 
文件 时 ， 它 可 能 是 文件 的 一 行内 容 ， 当 
它 是 表格 或 者 数据 库 时 ， 它 可 能 是 一 列 


map (keyl, valuel ) 一 list (key2, value2 ) 


map 函数 对 输入 的 一 个 key/value 对 可 能 返回 0 或 
者 或 多 个 key/value 对 。 人 例如， 如果 map 函数 是 一 
个 过 滤 性 的 map 函数 ， 它 只 会 在 满足 过 滤 条 件 时 有 
输出 。 又 或 者 它 执行 一 个 分 解 操作 ， 这 样 输入 的 一 
个 key/value 对 就 会 对 应 地 输出 多 个 key/value 对 


图 5-6 使 用 键 / 值 对 作为 输入 的 map 函 数 的 逻辑 视图 
MapReduce 的 强大 体现 在 map 输 出 和 reduce 输 入 之 间 的 shuffle 和 sort 阶 段 ， 如 图 5-7 所 示 。 


shuffle 和 sort 阶段 负责 两 个 主要 的 活动 ， 其 中 一 个 是 决定 
哪个 reducer 应 该 收 到 某 个 map 输出 的 key/value 对 ， 男 外 一 
个 是 保证 一 个 reducer 收 到 的 所 有 key/value 对 都 是 经 过 排序 的 







map output shuffle + sort sorted reduce input 
cat, docl > 
cat, list (docl, doc2 ) reducer 1 
mapper 1 dog, docl 
hamster, docl 
chipmunk, list (doc2 ) ery 
cat, doc2 dog, list (docl, doc2 ) 
dog, doc2 
mapper 2 chipmunk, doc2 1 
ai er list (docl, doc2 ) reducer 3 
map 的 输出 中 相同 的 key 都 会 到 同 每 个 reducer 的 输入 
一 个 reducer 中 ， 然 后 会 被 合并 为 一 的 key 都 是 经 过 排序 的 
个 key/value 对 又 作为 reducer 的 输入 
图 5-7 MapReduce 的 shuffle 和 sort 阶 段 
图 5-8 展 示 了 reduce 函 数 的 伪 代 码 定义 。 
每 一 个 map 男 数 产 map 国 数 通过 所 有 mapper 
生 的 不 同 的 key 都 会 六 点 输出 的 key2 的 值 都 存 
调用 一 次 reduce 少数 和 了 一 个 集合 中 
reduce (key2, list (value2’s)) 一 list (key3, value3 ) 


像 map 困 数 一 样 ，reduce 可 以 输出 堆 到 多 个 
key/value 对 ，reducer 可 以 输出 到 HDFS 上 的 多 个 
文件 ， 可 以 插入 或 更 新 非 关 系 型 数据 库 ， 还 可 以 
写 人 任何 数据 接收 需 中 ， 这 都 取决 于 任务 的 要 求 


图 5-8 feduce 函 数 的 逻辑 视图 ， 为 文件 、NoSQIL 数据 库 或 任何 数据 池 生 成 输出 


随 着 YARN 在 Hadoop 2 中 的 出 现 ，MapReduce 被 重 写 为 YARN 应 用 程序 ， 现 在 称 为 MapReduce 2 (或 MRv2) 。 从 开发 
人 员 的 角度 来 看 ，Hadoop 2 中 的 MapReduce 的 工作 方式 与 Hadoop 1 中 的 一 样 ， 为 Hadoop 1 编写 的 代码 将 在 Hadoop 2 中 不 


进行 代码 更 改 就 可 以 运行 [6]。 


在 掌握 了 一 些 Hadoop 基 础 之 后 ， 现 在 我 们 再 来 看 一 人 Hadoop 生 态 系统 。 


2.Hadoop 生 态 系统 
Hadoop 生 态 系统 是 多 样 化 的 ， 并 且 日 益 增长 ， 我 们 不 可 能 跟踪 Hadoop 相 关 的 所 有 项 目 。 本 书 将 重点 介绍 用 户 使 用 最 多 的 


Hadoop 工 具 ， 如 图 5-9 所 示 。 


六 


HDFS YARN+MapReduce : 
| i x Rs c We as BE : 
| Hadoop ， 


图 5-9 ”本 书 中 涉及 的 Hadoop 及 其 相关 技术 
许多 Hadoop 相 关 项 目的 目标 是 使 得 程序 员 和 非 程序 员 更 容易 使 用 Hadoop。 


Hadoop 生 态 系统 日 益 增 长 ， 通 常 有 多 个 工具 具有 相同 的 功能 和 好 处 。 本 书 的 目标 是 提供 涵盖 核心 Hadoop 技 术 的 实践 经 
验 ， 以 及 如 何 选择 Hadoop 生 态 系统 中 至 关 重 要 的 技术 。 现 在 让 我 们 来 看 看 集群 的 硬件 要 求 。 


3. 硬 件 需求 


术语 “商用 硬件 ”通常 用 于 描述 Hadoop 硬 件 要 求 。 的 确 ，Hadoop 可 以 运行 在 任何 旧 的 服务 器 上 ， 但 你 仍然 希望 集群 运行 
良好 ， 你 不 想 运 营 部 门 淹没 在 诊断 和 修复 大 量 硬件 问题 上 。 因 此 ， 商 用 硬件 是 指 具 有 双 插 槽 的 中 级 机 架 式 服务 器 、 尽 可 能 多 的 
RAM 以 及 针对 RAID 存 储 进行 过 优化 的 SATA 硬 盘 。 在 用 于 存储 HDFS 内 容 的 DataNode 文 件 系统 上 使 用 RAID 是 强烈 不 建议 的 ， 
因为 HDFS 已 经 内 置 了 复制 和 错误 检查 机 制 。 在 NameNode 上 ， 强 烈 建议 使 用 RAID 以 提高 安全 性 [7]。 


对 于 交换 机 和 防火 墙 ， 所 有 主 节点 和 从 节点 必须 能 够 打开 彼此 的 连接 。 


对 于 小 型 集群 ， 所 有 主机 需要 使 用 干 兆 网 卡 连 接 到 单个 高 性 能 交换 机 。 对 于 大 型 集群 ， 需 要 使 用 万 兆 交换 机 并 且 该 交换 机 至 
少 需要 有 多 个 1GB 上 行 链 路 到 双 中 心 交换 机 。 客 户 端 节点 还 需要 能 够 与 所 有 主 节点 和 从 节点 通信 ， 但 是 如 果 需 要 ， 可 以 要 求 从 客 
户 端 建立 的 连接 必须 要 经 过 防火 墙 。 


从 软件 和 硬件 角度 审视 Hadoop 之 后 ， 你 可 能 已 经 了 解 了 谁 可 以 从 Hadoop 中 获 益 。 一 旦 开始 使 用 Hadoop， 你 需要 选择 一 
个 分 发 版 使 用 ， 这 是 下 一 个 主题 。 


4. 谁 在 使 用 Hadoop 


Hadoop 在 高 科技 公司 中 具有 很 高 的 渗透 率 ， 并 且 开 始 在 广泛 的 行业 中 取得 进展 ， 包 括 企业 (比如 Booz Allen Hamilton、 
摩根 大 通 ) 、 政 府 (比如 NSA) 和 医疗 保健 行业 。 


Facebook 使 用 Hadoop、Hive 和 HBase 提 供 数据 仓库 和 实时 应 用 程序 服务 J。Facebook 的 数据 仓库 集群 的 规模 达到 了 PB 
级 ， 拥 有 数 干 个 节点 ， 并 且 它 们 使 用 单独 的 基于 HBase 的 实时 集群 进行 消息 传递 和 实时 分 析 。 


雅虎 使 用 Hadoop 进 行 数据 分 析 、 机 器 学 习 、 搜 索 排名 、 电 子 邮 件 反 垃圾 邮件 、 广 告 优化 、ETLI3 等 。 它 有 超过 40000 台 服 
务 器 运行 Hadoop， 存 储 超过 170PB。 雅 虎 还 拥有 第 一 个 大 规模 YARN 集 群 ， 集 群 高 达 4000 个 节点 [10]。 


Twitter 是 一 个 主要 的 大 数据 创新 者 ， 它 已 经 为 Hadoop 做 出 了 显著 的 贡献 ， 项 目 包括 Scalding (用 于 级 联 的 Scala API) 、 
Summingbird (用 于 实现 Nathan Marz 的 lambda 架 构 的 组 件 ) 和 各 种 其 他 珍贵 的 项 目 ， 如 Bijection、Algebird 和 Elephant 
Bird。 


一 些 其 他 公司 或 组 织 ， 包 括 eBay、 三 星 、Rackspace、J.P.Morgan、Groupon、LinkedlIn、AOL、Spotify 和 
StumbleUpon 等 ， 也 大 量 投 资 Hadoop。 微 软 在 与 Hortonworks 合 作 ， 确 保 Hadoop 能 在 其 平台 上 运行 。 


谷歌 在 其 MapReduce 论 文中 表示 ， 它 使 用 Caffeinel11] (谷歌 的 MapReduce 版 本 ) 来 抓 取 数据 并 创建 Web 索 引 。 谷 歌 还 
强调 了 他 们 的 MapReduce 的 应 用 程序 ， 包 括 诸如 分 布 式 grep、URL 访 问 频率 (来 自 日 志 数 据 ) 和 术语 向 量 算法 〈 其 确定 主机 的 
热门 关键 词 ) 。 


使 用 Hadoop 的 组 织 数量 每 天 都 在 增长 ， 如 果 你 在 财富 500 强 公司 工作 ， 你 几乎 肯定 会 使 用 一 些 Hadoop 集 群 。 很 明显 ， 随 
着 Hadoop 继 续 成 熟 ， 它 的 采用 将 继续 增长 。 


与 所 有 技术 一 样 ， 能 够 有 效 使 用 Hadoop 的 关键 在 于 了 解 其 缺陷 ， 然 后 在 设计 和 构建 解决 方案 时 尽 可 能 避免 这 些 缺 陷 。 
5.Hadoop 的 缺陷 


高 可 用 性 和 安全 性 通常 是 Hadoop 使 用 中 最 受 关 注 的 问题 之 一 。 这 些 问 题 许 多 已 经 在 Hadoop 2 中 得 到 解决 ;让 我 们 仔细 看 
看 它 的 版 本 2.7 的 一 些 弱点 。 


使 用 Hadoop 1 和 更 早 版 本 的 企业 注意 到 其 缺乏 高 可 用 性 。 在 Hadoop 1 中 ， 所 有 主 进程 都 是 单 点 ， 这 意味 着 主 进程 中 的 故 
障 会 导致 中 断 。 在 Hadoop 2 中 ，HDFS 具 有 高 可 用 性 ， 而 MapReduce 与 YARN 的 重 构 已 经 消除 了 单 点 故障 。Hadoop 1 已 有 企 
业 级 安全 配置 ， 但 是 默认 配置 是 不 安全 的 。 有 必要 指出 ， 现 有 主要 分 布 式 系统 的 默认 配置 都 是 不 安全 的 。 


(1) 高 可 用 性 


高 可 用 性 通常 在 具有 高 SLA 要 求 的 企业 组 织 中 强制 要 求 ， 以 确保 即使 在 节点 由 于 计划 内 或 计划 外 停止 的 情况 下 系统 始终 运 
行 。 在 Hadoop 2 之 前 ， 主 HDFS 进 程 只 能 在 单个 节点 上 运行 ， 导 致 单 点 故障 [15]。Hadoop 2 提供 了 NameNode 高 可 用 性 
(HA) 支持 ， 这 意味 着 同一 Hadoop 集 群 可 以 运行 多 个 NameNode。 使 用 当前 设计 ， 一 个 NameNode 是 活跃 的 ， 而 另 一 个 
NameNode 被 指定 为 备用 进程 。 如 果 活 跃 NameNode 遇 到 计划 内 或 计划 外 中 断 ， 备 用 NameNode 将 接管 作为 活跃 
NameNode， 这 是 一 个 称 为 失效 备 援 (failover) 的 机 制 。 此 失效 备 援 可 以 配置 为 自动 的 ， 不 需要 人 工 干预 。 发 生 NameNode 
失效 备 援 对 Hadoop 客 户 端 是 透明 的 。 


MapReduce 主 进程 (JobTracker) 在 Hadoop 2 中 没有 HA 支持 ， 但 既然 每 个 MapReduce 作 业 都 有 自己 的 JobTracker 进 程 
(一 个 单独 的 YARN Application-Master) ， 那 么 HA 支持 可 能 并 不 重要 。Hadoop 2.4 起 Resource Manager HA 也 有 了 支持 。 


然而 ，YARN 主 进程 (ResourceManager) 中 的 HA 支持 很 重要 ， 目 前 正在 开发 此 功能 ， 未 来 将 添加 到 Hadoop 中 [13]。 
(2) 多 数据 中 心 


多 数据 中 心 支持 是 企业 软件 中 日 益 受 到 期 待 的 男 一 个 关键 功能 ， 因 为 它 提供 强大 的 数据 保护 和 本 地 性 (因为 数据 在 多 个 数据 
中 心中 进行 复制 ) 。 


Apache Hadoop 及 其 大 多 数 商 业 发 行 版 本 从 未 支持 多 个 数据 中 心 ， 这 给 在 多 个 数据 中 心中 运行 软件 的 组 织带 来 了 挑战 。 
WANdisco 是 目前 唯一 可 用 于 Hadoop 多 数据 中 心 支持 的 解决 方案 。 


(3) 安全 


Hadoop 提 供 了 一 个 安全 模型 ， 但 上 默认 情况 下 它 被 禁用 。 禁 用 安全 模型 后 ，Hadoop 中 存在 的 唯一 安全 功能 是 HDFS 文 件 和 
目录 级 别 的 权限 控制 。 


但 恶意 用 户 很 容易 颠覆 和 假冒 其 他 用 户 的 身份 。 默 认 情 况 下 ， 所 有 其 他 Hadoop 服 务 都 是 开放 的 ， 人 允许 任何 用 户 执行 任何 类 
型 的 操作 ， 例 如 结束 另 一 个 用 户 的 MapReduce 作 业 。 


Hadoop 可 以 配置 为 与 Kerberos 一 起 运行 ，Kerberos 是 一 种 网 络 身份 验证 协议 ， 需 要 Hadoop 守 护 程序 对 用 户 和 其 他 


要 小 心 ， 因 为 任何 希望 与 集群 交互 的 Hadoop 工 具 都 需要 支持 Kerberos。 

线 级 加 密 (Wire-level encryption) 可 以 在 Hadoop 2 中 配置 ， 并 允许 跨越 网 络 (HDFS 传 输 14 和 MapReduce 
shuffle[13]) 的 数据 被 加 密 。Hadoop 中 当前 缺少 静态 数据 加 密 (磁盘 上 HDFS 存 储 的 数据 ) 。 

让 我 们 来 看 看 一 些 个 别 系统 的 局 限 性 。 


HDFS 


HDFS 的 弱点 主要 是 它 缺 乏 高 可 用 性 (在 Hadoop 1.x 和 更 早 版 本 中 ) 、 对 小 文件 的 低 效 处 理 [16] 以 及 缺乏 透明 压缩 。HDFS 
不 支持 对 文件 的 随机 写 入 ( 仅 支持 追加 ) ， 并 且 它 通常 设计 为 支持 对 大 文件 的 高 吞吐 量 顺 序 读 取 和 写 入 。 


MapReduce 


MapReduce 是 一 个 基于 批 处 理 的 架构 ， 这 意味 着 它 不 适用 于 需要 实时 数据 访问 的 用 例 。 需 要 全 局 同步 或 共享 可 变数 据 的 任 
务 不 适合 MapReduce， 因 为 它 是 一 个 无 共享 架构 ， 该 架构 可 能 会 对 某 些 算法 构成 挑战 。 


版 本 不 兼容 


Hadoop 2 版 本 带 来 了 一 些 令 人 头疼 的 MapReduce API 运 行 时 兼容 性 问题 ， 特 别 是 在 org.hadoop.mapreduce 包 中 ,在 
Hadoop 1 (和 更 早 版 本 ) 基础 上 编译 的 代码 通常 导致 运行 时 问题 。 解 决 方案 通常 是 针对 Hadoop 2 重新 编译 。 


Hive 和 Hadoop 的 其 他 挑战 也 人 存在，Hive 可 能 需要 重新 编译 以 使 用 不 同 Hadoop 的 版 本 。Pig 也 有 兼容 性 问题 。 例 如 ，Pig 
0.8 版 本 不 适用 于 Hadoop 0.20.203， 需 要 手动 干预 来 解决 这 个 问题 。 这 是 使 用 除 Apache 之 外 的 Hadoop 发 行 版 的 优点 之 一 ， 
为 这 些 兼 容 性 问题 已 得 到 修复 。 如 果 希 望 使 用 Apache 发 行 版 ， 那 么 值得 看 看 Bigtop (http://bigtop.apache.org/) ， 这 是 一 个 
Apache 开 源 的 自动 化 构建 系统 。 它 包括 所 有 主要 的 Hadoop 生 态 系统 组 件 ， 并 运行 多 个 集成 测试 ， 以 确保 它们 彼此 协同 工作 。 


[1 Nutch 工程 乃至 它 的 扩展 Hadoop， 是 由 Doug Cutting 和 Mike Cafarella 领导 的 。 


D] 一 个 mastet 进程 控制 一 个 或 多 个 slave 进程 的 通信 模型 。 

[3] 请 查看 “The Google File System” : http://research.google.com/archive/gfs.html。 

[4] 请 查看 论文 “MapReduce: Simplified Data Processing on Large Clusters” : http://reseatch.google.com/archive/mapreduce.html。 

[5] 无 共享 架构 是 一 种 分 布 式 计算 概念 ， 表 示 每 个 节点 是 独立 的 。 

[6] 有 些 代码 可 能 需要 针对 Hadoop 2 二 进 制 文件 重新 编译 才能 使 用 MRv2， 有 关 详细 信息 。 

[7 HDFS 使 用 磁盘 持久 存储 文件 系统 的 元 数据 。 

[8] 参见 Dhruba Borthakur 的 “ Looking at the code behind out three uses of Apache Hadoop”: http://mng.bz/4cMc。Facebook 还 开发 





了 自己 的 名 为 Presto 的 SQL-on-Hadoop 工具 ， 并 且 正 在 远离 Hive (参见 Martin Travetso， “ Presto: Intetacting with petabytes of data 
at Facebook” , http://mng.bz/pOXz) 。 

[9 抽取 、 和 转换 和 加 载 (ETL) 是 从 外 部 源 提取 数据 ， 根 据 项 目 需要 进行 转换 ， 并 加 载 到 目标 数据 池 的 过 程 。ETL 是 数据 仓库 中 
的 常见 过 程 。 

[10] 在 Vinod Kumar Vavilapalli 等 人 的 “ Apache Hadoop YARN : Yet Another Resource 
Negotiator” (www.cs.cmu.edu/~garth/15719/papers/yarn.pdf) 中 有 关于 YARN 及 其 在 雅虎 应 用 的 更 多 细节 。 

[11] 在 2010 年 ， 谷 歌 实现 了 一 个 叫做 Caffeine 的 实时 索引 系统 ;请 在 2010 年 6 月 8 日 的 谷歌 博客 上 查看 “ Our new search index: 
Caffeine ” : http://googleblog.blogspot.com/2010/06/our-newsearch-index-caffeine.html。 

[12] 实际 上 ，HDEFS 的 单 点 故障 可 能 不 是 很 严重 ; 。 参见 Suresh Srinivas 和 Aaron 了 T.Myers 的 “NameNode HA”: 
http://goo.g/1iSab。 

[13] 有关 YARN HA 支持 的 其 他 详细 信息 ， 请 参阅 名 为 “ ResourceManager (RM) High-Availability (HA) ，” 的 JIRA: 
https://issues.apache.org/jita/ browse/YARN-149。 

[1 和 1 请 参见 JIRA “Add suppott for encrypting the DataTransferProtocol” : https://issues.apache.org/jira/browse/ HDFS-3637。 

[15] 请 参见 JIRA “Add suppott for encrypted shuffl e” : https://issues.apache.org/jita/browse/MAPREDUCE-4417。 





[16] 尽管 Hadoop 2 中 的 HDFS Federation 已 经 为 多 个 NameNode 引入 了 共享 文件 元 数据 的 方法 ， 但 是 事实 仍然 是 元 数据 存储 在 内 存 


中 。 


5.2 _ Apache Spark 


1. 什 么 是 Apache Spark 
Apache Spark 是 一 个 集群 计算 平台 ， 旨 在 速度 和 通用 。 


在 速度 方面 ，Spark 扩 展 了 被 广泛 使 用 的 MapReduce 模 型 ， 以 有 效 地 支持 更 多 类 型 的 计算 ， 包 括 交 互 式 查 询 和 流 式 处 理 。 
速度 在 处 理 大 数据 集合 时 非常 重要 ， 速 度 快意 味 着 可 以 进行 交互 式 数据 探索 ， 速 度 慢 则 只 能 等 待 数 分 钟 甚至 数 小 时 。Spark 为 加 
速 提供 的 一 个 最 重要 特征 是 可 以 在 内 存 中 做 计算 ， 当然 Spark 在 磁盘 上 运行 复杂 的 应 用 时 ， 效 率 依然 比 MapReduce 高 。 


在 通用 性 方面 ，Spark 被 设计 成 了 可 以 运行 以 前 需要 不 同 分 布 式 系统 来 完成 的 各 种 任务 ， 包 括 批 处 理应 用 、 途 代 算 法 、 交 互 
式 查询 和 流 式 计 算 。 通 过 在 一 个 引 警 中 支持 这 些 不 同 的 任务 ，Spark 使 组 合 不 同类 型 的 处 理 任务 变 得 容易 和 低 成 本 ， 这 在 产品 数 
据 分 析 作 业 流 中 通常 是 必需 的 ， 此 外 也 减少 了 维护 不 同 工 具 的 管理 成 本 。 


Spark 具 有 高 可 用 性 ， 提 供 了 简单 的 Python、Java、Scala 和 SQL 接口 以 及 丰富 的 内 建 库 。 它 同时 和 其 他 的 大 数据 工具 紧密 
集成 ， 特 别 是 可 以 在 Hadoop 集 群 上 运行 ， 访 问 任何 Hadoop 数 据 源 ， 包 括 Cassandra。 


2. 统 一 栈 


Spark 项 目 包 括 了 许多 紧密 集成 的 组 件 。 其 核心 是 一 个 “计算 引擎 ”， 负 责 调 度 、 分 发 、 监 控 应 用 程序 ， 应 用 包含 了 许多 跨 
越 多 台 工 作 节 点 或 者 计算 集群 的 计算 任务 。 因 为 Spark 核 心 引擎 的 速度 和 通用 ， 它 为 专用 于 各 种 工作 任务 (如 SQL 或 机 器 学 习 ) 
的 各 高 级 别 的 组 件 提供 有 力 支持 。 这 些 组 件 设计 为 具有 紧密 的 互 操作 性 ， 这 样 在 软件 项 目 中 可 以 像 库 文件 一 样 使 用 它们 。 


这 种 紧密 集成 的 设计 理念 有 几 个 好 处 。 首 先 ， 技 术 栈 中 的 所 有 库 文件 和 更 高 级 别 的 组 件 都 受益 于 下 层 的 改进 。 例 如 ，Spark 
的 内 核 引 擎 添加 了 一 项 优化 ， 那 么 SQL 和 机 器 学 习 库 也 会 自然 地 带 来 速度 提升 。 


其 次 ， 与 运行 堆栈 相关 联 的 成 本 被 最 小 化 ， 因 为 只 需要 运行 一 套 系统 ， 而 不 需要 运行 5 ~ 10 个 系统 。 这 些 成 本 包含 部 署 、 维 
护 、 测 试 、 技 术 支 持 等 。 这 也 意味 着 每 次 一 个 新 的 组 件 加 入 到 Spark 栈 里 ， 每 个 使 用 Spark 的 组 织 都 可 以 立即 尝试 这 个 新 的 组 
件 。 这 降低 了 为 尝试 一 种 新 的 数据 分 析 功 能 时 ， 从 下 载 、 部 署 、 学 习 新 的 软件 项 目 到 升级 Spark 带 来 的 成 本 。 


最 后 ， 紧 密集 成 的 最 大 优势 之 一 是 可 以 构建 一 个 无 颖 集成 各 种 不 同 的 处 理 模型 的 应 用 。 例 如 ， 在 Spark 中 ， 可 以 编写 一 个 应 
用 程序 ， 它 使 用 机 器 学 习 对 从 流 式 数据 源 来 的 数据 进行 实时 分 类 。 同 时 ， 分 析 员 可 以 通过 SQL (例如 ， 把 这 些 数据 和 非 结构 化 的 
日 志文 件 连接 ) 实时 查询 生成 的 数据 。 另 外 ， 熟 练 的 数据 工程 师 和 数据 科学 家 可 以 使 用 Python 访问 同样 的 数据 做 即席 分 析 。 其 
他 人 也 可 以 使 用 独立 的 批 处 理 程序 访问 相同 的 数据 。 而 IT 团队 只 需要 维护 一 个 系统 。 


下 面 简要 介绍 一 下 Spark 的 各 个 模块 ， 见 图 5-10。 
3.SparkCore 


Spark Core 含 有 许多 基本 的 功能 ， 包 括 任务 调度 、 内 存 管 理 、 故 障 恢复 与 存储 系统 交互 等 组 件 。Spark Core 也 包含 了 定义 
弹性 分 布 式 数据 集 (RDD) 的 API。RDD 是 Spark 最 主要 的 编程 抽象 ， 指 可 以 横 跨 多 个 计算 节点 进行 并 行 计 算 的 分 布 式 元 素 集 
合 。 Spark Core 提 供 了 很 多 APl 来 构建 和 操作 这 些 集合 。 


Spark SQL Spark Streaming MLlib GraphX 
结构 化 数据 实时 处 理 机 天 学 习 图 像 处 理 





图 5-10 ”Spatk 栈 


(1) Spark SQL 


Spark SQL 是 用 于 处 理 结构 化 数据 的 Spark 包 。 它 支持 通过 SQL 以 及 Apache Hive 的 变 体 SQL ( 称 为 Hive 查 询 语言 
(HQL) ) 来 查询 数据 ， 支 持 许多 数据 源 ， 包 括 Hive 表 、Parquet 和 JSON。 除 了 提供 SQL 接口 ，Spark SQL 人 允许 开发 人 员 在 单 
个 应 用 程序 中 将 SQL 查询 与 Python、Java 和 scala 中 的 RDD 支 持 的 编程 数据 操作 混合 在 一 起 ， 从 而 将 SQL 与 复杂 分 析 相 结合 。 这 
种 与 Spark 提 供 的 丰富 计算 环境 的 紧密 集成 使 得 Spark SQL 不 同 于 任何 其 他 开源 的 数据 仓库 工具 。spark SQL 在 Spark 1.0 的 时 候 
加 入 到 Spark 中 。 


Shark 是 加 州 大 学 伯克利 分 校 的 一 个 较 旧 的 SQL-on-Spark 项 目 ， 它 修改 了 Apache Hive 以 在 Spark 上 运行 。 它 现在 已 被 
Spark SQL 蔡 代 。spark SQL 提供 了 与 Spark 引 警 和 编程 API 更 好 的 集成 。 


(2) Spark Streaming 


Spark streaming 是 一 个 Spark 组 件 ， 可 以 用 来 处 理 实时 数据 流 。 由 Web 服 务 器 生成 的 日 志文 件 或 由 Web 服 务 用 户 发 布 的 状 
人 态 更 新 的 消息 队列 ， 都 是 数据 流 。Spark Streaming 提 供 了 用 来 操作 数据 流 的 AP1， 并 且 与 Spark Core 中 的 RDD AP 高 度 对 应 ， 
使 得 程序 员 可 以 轻松 地 学 习 项 目 ， 在 处 理 存储 在 内 存 、 磁 盘 上 或 实时 到 达 的 数据 的 应 用 程序 之 间 轻 松 切 换 。 在 其 API 下 ，Spark 
streaming 旨 在 提供 与 Spark Core 相 同 程度 的 容错 性 、 吞 吐 量 和 可 扩展 性 。 


(3) MLlib 


Spark 附 带 一 个 包含 通用 机 器 学 习 功 能 的 库 ， 称 为 MLib。MLIib 提 供 多 种 类 型 的 机 器 学 习 算 法 ， 包 括 分 类 、 回 归 、 聚 类 和 协 
同 过 滤 等 ， 还 提供 了 模型 评估 、 数 据 导 入 等 额外 的 支持 功能 。 它 还 提供 一 些 低级 ML 原 语 ， 包 括 通用 梯度 下 降 优化 算法 。 所 有 这 
些 方法 都 被 设计 为 可 以 在 集群 上 横向 扩展 。 


(4) GraphX 


GraphX 是 用 于 操纵 图 (例如 ， 社 交 网 络 的 朋友 关系 图 ) 和 执行 图 并 行 计算 的 库 。 与 Spark Streaming 和 Spark SQL 一 
样 ，GraphX 扩 展 了 Spark RDD API， 人 允许 创建 一 个 顶点 和 边 都 包含 任意 属性 的 有 向 图 。GraphX 还 提供 了 用 于 操作 图 (例如 ， 
子 图 和 mapVertices) 和 常用 图 算法 库 (例如 ，PageRank 和 三 角形 计数 ) 的 各 种 操作 符 。 


(5) 集群 管理 器 


就 底层 而 言 ，Spark 设 计 为 可 以 高 效 地 在 一 个 到 数 干 个 计算 节点 间 伸 缩 计算 。 为 了 实现 这 一 点 ， 同 时 最 大 限度 地 提高 灵活 
性 ，Spark 可 以 在 各 种 集群 管理 器 上 运行 ， 包 括 Hadoop YARN、Apache Mesos 和 Spark 本 身 包含 的 称 为 独立 调度 器 的 简单 集 
群 管理 器 。 如 果 只 是 在 一 组 空 机 器 上 安装 Spark， 可 以 先 从 简单 的 独立 调度 器 开始 ; 如 果 已 经 有 一 个 Hadoop YARN 或 Mesos 集 
群 ，Spark 对 这 些 集群 管理 器 的 支持 允许 你 的 应 用 程序 在 它们 上 运行 。 


4. 谁 使 用 Spark， 为 什么 使 用 


由 于 Spark 是 用 于 集群 计算 的 通用 框架 ， 因 此 被 用 于 各 种 各 样 的 应 用 程序 。Spark 的 用 户 有 两 组 目标 人 群 : 数据 科学 家 和 工 
旦 师 。 仔 细 分 析 这 两 个 群体 以 及 他 们 使 用 Spark 的 方式 ， 不 难 发 现 ， 两 者 之 间 使 用 Spark 的 典型 用 例 不 同 ， 但 我 们 可 以 将 这 些 用 
例 大 致 分 为 两 类 一 一 数据 科学 应 用 和 数据 处 理应 用 。 


当然 ， 这 些 都 是 不 精确 的 学 科 和 使 用 模式 ， 许 多 人 都 有 数据 科学 家 和 工程 师 两 方面 的 技能 ， 有 时 扮演 数据 科学 家 的 角色 探索 
数据 ， 然 后 “变换 角色 ”去 写 一 个 强化 的 数据 处 理应 用 程序 。 尽 管 如 此 ， 分 开 看 这 两 大 群体 和 相应 的 用 例 是 很 有 意义 的 。 


(1) 数据 科学 应 用 


数据 科学 是 一 个 在 过 去 几 年 中 出 现 的 学 科 ， 它 以 数据 分 析 为 中 心 。 昌 然 没有 标准 定义 ， 但 是 对 于 我 们 而 言 ， 数 据 科学 家 的 主 
要 任务 是 数据 分 析 和 建 模 。 数 据 科学 家 可 能 具有 SQL、 统 计 、 预 测 建 模 (机 器 学 习 ) 和 编程 经 验 ， 他 们 通常 使 用 Python、 
Matlab 或 R。 数 据 科学 家 还 具有 将 数据 转换 为 可 以 分 析 洞 察 的 形式 所 需 的 技术 经 验 (有 时 称 为 数据 整理 ) 。 


数据 科学 家 利用 他 们 的 技能 来 分 析 数 据 ， 目 的 是 回答 问题 或 发 现 一 些 潜 在 规律 。 通 常 ， 他 们 的 工作 流 会 涉及 即时 分 析 ， 因 此 
他 们 使 用 交互 式 shell (而 不 是 构建 复杂 应 用 程序 ) ， 可 以 在 最 短 时 间 内 得 到 查询 语句 和 一 些 简单 代码 的 查询 结果 。Spark 的 速度 
和 简单 的 API 很 容易 达到 这 个 目的 ， 它 的 内 置 库 意味 着 许多 算法 是 开 箱 即 用 的 。 





Spark 通 过 多 个 组 件 支持 数据 科学 的 不 同 任务 。Spark shell 使 基于 Python 或 scala 进 行 交 互 式 数据 分 析 变 得 容易 。spark 
SQL 还 有 一 个 单独 的 SQL Shell， 可 用 于 使 用 SQL 进 行 数据 探索 ，Spark SQL 还 可 以 用 作 常 规 Spark 程 序 或 Spark Shell 中 的 一 部 
分 。 机 器 学 习 和 数据 分 析 通 过 MLLib 库 支持 。 此 外 ， 还 支持 在 Matlab 或 R 中 调用 外 部 程序 。Spark 使 数据 科学 家 能 够 处 理 比 R 或 
Pandas 之 类 的 工具 能 处 理 的 更 大 数据 量 的 问题 。 


有 时 ， 在 初始 探索 阶段 之 后 ， 数 据 科学 家 的 工作 会 被 “产品 化 ”或 扩展 、 强 化 〈 如 容错 ) 、 调 整 为 产品 中 处 理 数 据 的 应 用 ， 
其 本 身 是 业务 应 用 的 一 个 模块 。 例 如 ， 数 据 科学 家 的 初期 探索 可 能 会 产品 化 成 一 个 推荐 系统 ， 该 系统 被 集成 到 Web 应 用 中 并 且 
用 于 向 用 户 提供 产品 推荐 。 通 常 是 另外 一 个 人 或 团队 ， 将 数据 科学 家 的 工作 转化 为 实际 生产 环境 中 的 应 用 ， 那 个 人 通常 是 工程 
师 。 


(2) 数据 处 理应 用 


Spark 的 另 一 个 主要 用 例 是 针对 工程 师 的 。 我 们 认为 工程 师 是 一 个 大 类 的 软件 开发 人 员 ， 他 们 使 用 Spark 来 构建 生产 环境 中 
处 理 数据 的 应 用 程序 。 这 些 开发 人 员 通 常理 解 软件 工程 的 原理 ， 例 如 封装 、 接 口 设计 和 面向 对 象 的 编程 。 他 们 一 般 有 计算 机 科学 
学 位 ， 使 用 工程 技术 来 设计 和 构建 软件 系统 ， 以 实现 业务 需求 。 


对 于 工程 师 ，Spark 提 供 了 一 种 简单 的 方法 来 跨 集群 并 行 化 这 些 应 用 程序 ， 并 且 屏 菩 了 分 布 式 系统 编程 、 网 络 通信 和 容错 的 
复杂 性 。 系 统 为 他 们 提供 了 足够 的 控制 来 监视 、 检 查 和 调整 应 用 程序 ， 同 时 允许 他 们 快速 实施 常见 的 任务 。API 的 模块 化 特性 
(基于 传递 对 象 的 分 布 式 集合 ) 大 大 简化 了 利用 程序 库 进 行 开 发 以 及 本 地 测试 的 工作 。 


用 户 之 所 以 选择 Saprk 来 开发 数据 处 理应 用 程序 ， 正 是 因为 Spark 提 供 了 各 种 各 样 的 功能 ， 容 易学 习 和 使 用 ， 并 且 成 熟 可 


名 


5.Spark 的 存储 层 


Spark 可 以 从 Hadoop 分 布 式 文件 系统 (HDFS) 或 Hadoop API 支 持 的 其 他 存储 系统 (包括 本 地 文件 系统 、Amazon S53、 
Cassandra、Hive、HBase 等 ) 中 创建 分 布 式 数据 集 。 重 要 的 是 ， 要 记 住 Hadoop 并 非 Spark 的 必要 条 件 ，Spark 支 持 任何 实现 
了 Hadoop API 的 存储 系统 。Spark 支 持 的 Hadoop 输 入 格式 包括 文本 文件 、SequenceFiles、Avro、Parquet 等 。 


5.3 ”NoSQL 数 据 库 


除了 你 不 知道 的 历史 ， 世 界 上 没有 新 的 东西 。 





一 一 Hatty S.Truman 
本 节 将 介绍 关系 型 数据 库 数 据 、 早 期 数据 管理 系统 与 关系 型 数据 库 的 演进 ， 并 介绍 NoSQL 数 据 库 的 动机 。 


言 息 技术 的 历史 是 计算 速度 加 快 和 数据 存储 量 激增 的 过 程 。 这 个 过 程 中 的 一 个 重要 环节 是 数据 管理 技术 的 演变 。 在 过 去 二 十 
年 中 ,使 用 数据 管理 系统 的 任何 人 都 认为 数据 管理 与 关系 数据 库 管理 系统 是 同 义 的。 其实 却 不 是 这 样 。 在 关系 数据 库 管 理 系统 
(如 Microsoft Access、Microsoft SQL Server、Oracle 关 系数 据 库 和 IBM 的 DB2) 出 现 之 前 ， 计 算 机 科学 家 和 信息 技术 专业 人 
员 根 据 不 同 的 组 织 原则 创建 了 各 种 数据 管理 系统 。 而 数据 管理 社区 最 近 遇 到 了 新 型 数据 管理 问题 ， 这 促使 其 开发 新 型 数据 管理 系 
统 。 这 些 新 型 数据 管理 系统 统称 为 NoSQL 数 据 库 。 


NoSQL 从 SQL 获取 其 名 称 ，SQL 是 一 种 用 于 大 多 数 关系 数据 库 管理 系统 的 语言 [1]。NoSQL 中 的 “No” 可 以 表示 数据 库 中 没 
有 使 用 SQL， 或 者 它 可 以 意味 着 “不 只 是 SQL”。 在 这 里 ， 我 们 将 考虑 NoSQL 数 据 库 的 非 SQL 方面 。 


接 下 来 详细 介绍 数据 管理 和 数据 库 系统 的 基本 概念 。 它 首先 讨论 早期 的 数据 库 管理 系统 。 这 些 早期 数据 管理 系统 的 局 限 性 推 
动 了 一 种 新 型 数据 库 的 发 展 : 关系 数据 库 。 关 系数 据 库 是 对 早期 其 他 类 型 的 数据 管理 系统 的 重大 进步 。 例 如 ， 关 系数 据 库 有 助 于 
避免 数据 的 不 一 致 性 ， 即 数据 异常 。 在 看 似 正常 的 运行 条 件 下 ， 数 据 寞 常 可 能 出 现在 一 些 数据 管理 系统 中 。 关 系数 据 库 已 经 成 功 
地 解决 了 广泛 的 数据 管理 问题 ， 因 此 它们 已 被 广泛 应 用 于 各 行业 。 


1. 关 系 型 数据 库 设计 


关系 数据 库 经 过 精心 设计 ， 可 同时 支持 数 百 甚至 数 干 个 用 户 。 大 型 企业 的 一 些 复杂 应 用 也 需要 同时 支持 数 干 用 户 。 随 着 企业 
和 研究 人 员 开 发 为 Web 设 计 的 新 型 应 用 程序 ， 他 们 意识 到 关系 数据 库 并 不 总 是 满足 需求 。 


Web 应 用 程序 可 能 需要 支持 成 干 上 万 的 用 户 或 更 多 。 关 系数 据 库 具有 一 些 最 重要 的 特性 ， 例 如 确保 任何 人 读 取 数据 时 都 具 
有 一 致 的 数据 视图 ， 这 需要 时 间 、 存 储 和 计算 资源 。 这 些 类 型 的 功能 对 于 某 些 应 用 程序 至 关 重 要 。 


例如 ， 如 果 你 将 100 美 元 从 储蓄 账户 转 入 支票 账户 ， 需 要 两 个 步骤 : 从 储蓄 账户 扣除 100 美 金 ， 并 将 100 美 金 添 加 到 支票 账 
户 。 如 果 在 储蓄 账户 扣除 100 美 金 后 ， 但 在 将 其 添加 到 支票 账户 之 前 ， 此 时 账户 余额 似乎 缺少 100 美 金 。 关 系数 据 库 可 以 将 一 组 
操作 (例如 从 储 蕾 账户 扣除 和 添加 到 支票 账户 ) 作为 单个 操作 进行 。 如 果 要 读 取 余 额 ， 你 会 看 到 在 转移 之 前 或 之 后 的 余额 ， 而 不 
可 能 看 到 一 组 操作 的 中 间 余 额 。 


现在 考虑 一 个 电子 商务 应 用 程序 的 场景 。 客 户 使 用 Web 应 用 程序 从 供应 商 的 目录 中 选择 商品 。 当 选择 商品 时 ， 它 们 被 添加 
到 “购物 车 ”中 。 当 然 ， 没 有 所 谓 的 购物 车 ， 它 是 一 个 管理 客户 选择 的 数据 结构 的 比喻 。 对 于 这 种 数据 管理 操作 ， 使 用 简单 的 数 
据 结构 就 足够 了 ， 这 需要 每 个 客户 的 唯一 标识 符 和 所 选 商品 的 列表 。 (可 能 还 需要 其 他 详细 信息 ， 例 如 某 个 商品 添加 到 购物 车 的 
日 期 和 和 时间， 因此 可 以 对 该 商品 在 一 段 时 间 内 没有 操作 之 后 将 其 删除 ， 但 我 们 现在 忽略 这 些 信 息 。 ) 


使 用 基于 键 值 对 的 数据 模型 会 很 适合 这 种 应 用 场景 。 唯 一 的 客户 ID 是 键 ， 我 们 使 用 它 查 找 数 据 。 值 是 购物 车 中 的 商品 列 
表 。 因 为 没有 必要 支持 银行 账户 之 间 的 转账 操作 ， 所 以 不 需要 支持 关系 数据 库 中 的 其 他 数据 管理 功能 。 


不 同 的 应 用 需要 不 同类 型 的 数据 库 ， 这 个 事实 推动 了 数据 管理 系统 几 十 年 的 发 展 。 正 如 我 们 将 看 到 的 ， 历 史 在 重演 。 在 早期 
数据 库 管理 系统 中 发 现 的 一 些 特性 再 次 出 现在 一 些 NoSQL 数 据 库 中 。 这 个 事实 不 仅仅 是 一 个 有 趣 的 巧合 。 关 系数 据 库 在 很 大 程 
度 上 取代 了 早期 类 型 的 数据 管理 系统 ， 因 为 关系 模型 解决 了 早期 系统 的 局 限 性 。 


在 评估 NoSQL 数 据 库 时 ， 我 们 应 该 考虑 较 新 的 NoSQL 数 据 库 如 何 解 决 关 系数 据 库 的 局 限 性 ， 以 及 它们 与 早期 数据 管理 系统 
具有 的 相同 限制 。 


2. 早 期 的 数据 管理 系统 
早期 的 数据 管理 系统 包括 在 20 世 纪 70 年 代 关 系数 据 库 出 现 之 前 设计 的 文件 和 数据 库 系 统 ， 这 些 包 括 : 
* 平面 文件 数据 管理 系统 ; 
* 分 层 数据 管理 系统 ; 
.网络 数据 管理 系统 。 
基于 平面 文件 的 系统 是 计算 机 化 数据 管理 的 最 时 形式。 分 层 和 网 络 模型 是 对 平面 文件 数据 管理 系统 的 改进 。 
(1) 平面 文件 数据 管理 系统 


在 这 种 系统 中 ， 文 件 是 存储 在 长 期 存储 介质 (例如 磁盘 或 当时 的 磁带 ) 上 的 有 组 织 的 数据 集 。 当 时 平面 文件 是 常用 的 数据 管 
理 方式 ， 但 磁带 也 被 广泛 使 用 。 为 此 ， 早 期 的 数据 管理 文件 必须 适应 物理 系统 的 约束 。 


@ 平 面 文件 数据 管理 系统 的 组 织 


虽然 有 多 种 方式 将 数据 人 存储 在 磁带 上 ， 但 为 了 简单 起 见 ， 本 节 仅 考 虑 块 人 存储。 磁带 是 一 种 长 的 、 薄 的 磁化 塑料 材料 ， 是 从 


19 世 纪 50 年 代 到 70 年 代 录 制 音频 的 流行 手段 。 它 也 适用 于 存储 数字 数据 。 磁 带 被 分 成 一 系列 块 ， 它 们 之 间 有 间隙 ( 见 图 5- 
11) 。 数 据 通过 磁带 驱动 器 中 的 记录 头 写 入 块 ， 并 通过 将 磁带 移动 到 磁头 上 来 读 取 。 


效 据 块 间 隅 


图 5-11 磁带 将 数据 存储 在 顺序 块 中 


这 是 一 个 相对 简单 的 操作 ， 开 始 在 特定 块 读 取 磁带 ， 然 后 依次 读 取 接 下 来 的 块 。 这 称 为 对 数据 的 顺序 访问 。 该 方法 优化 了 磁 
带 的 移动 量 与 读 取 的 数据 量 之 间 的 相对 关系 。 可 以 将 块 视 为 磁带 驱动 器 读 取 的 一 块 数据 。 块 可 以 包含 多 个 实体 的 数据 ， 例 如 人 、 
产品 和 位 置 。 如 果 企业 需要 跟踪 客户 的 姓名 、 地 址 和 电话 号 码 ， 则 可 以 使 用 基于 文件 的 存储 方法 。 项 目 开发 人 员 可 以 决定 为 每 个 
客户 留 下 固定 数量 的 存储 空间 。 


. 客户 ID 10 个 字符 。 
. 客户 名 称 一 40 个 字符 。 

. 客户 地 址 一 一 100 个 字符 。 

. 客户 电话 号 码 一 一 10 个 字符 。 


每 个 客户 信息 的 存储 需要 160 个 字符 。 如 果 磁带 上 的 块 长 度 为 800 个 字符 ， 则 可 以 在 每 个 块 中 存储 五 个 客户 记录 (参见 图 5- 
12) 。 
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图 5-12 块 是 在 单个 读 取 操作 中 由 磁带 或 磁盘 驱动 器 读 取 的 数据 块 

















@ 数 据 的 随机 访问 


有 时 需要 访问 磁带 不 同 部 分 上 的 数据 。 例 如 ， 碍 找 几 个 客户 的 地 址 可 能 需要 将 磁带 移动 到 几 个 不 同 的 位 置 ， 其 中 一 些 位 置 可 
能 彼此 相当 远 。 这 称 为 随机 访问 (参见 图 5-13) 。 


图 5-13 对 磁带 上 的 块 的 随机 访问 可 能 比 顺 序 访问 需要 更 多 的 时 间 ， 因 为 相对 于 读 取 的 数据 量 ， 可 能 有 更 多 的 磁带 移动 。 
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读 取 倒数 第 一 块 
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图 5-13 ”随机 访问 示意 图 


随机 访问 在 磁盘 驱动 器 上 更 高 效 。 磁 盘 驱动 器 的 读 写 磁头 可 能 需要 移动 到 正确 的 位 置 以 读 取 数 据 块 ， 但 是 与 磁带 相 比 移动 更 


少 。 磁 盘 读 写 磁 头 只 需要 移动 最 多 磁盘 的 半径 。 磁 带 机 可 能 需要 移动 磁带 的 全 长 以 检索 数据 块 。 
@ 平 面 文件 数据 管理 系统 的 局 限 性 


使 用 平面 文件 的 程序 在 很 大 程度 上 决定 了 数据 的 组 织 。 例 如 ， 团 队 的 开发 人 员 可 能 会 决定 他 们 希望 按 客 户 1D 排 序 来 记录 客 
户 信息 和 组 织 文件 ， 这 可 以 让 添加 新 客户 的 操作 更 高 效 。 随 着 每 个 新 客户 的 创建 ， 客 户 信息 可 以 添加 到 磁带 的 末端 。 如 果 需 要 生 
成 按 客 户 1D 排 序 的 客户 列表 ， 则 可 以 从 磁带 开头 顺序 读 取 每 条 记录 。 如 果 需 要 按 客 户 名 称 以 字母 顺序 生成 客户 列表 ， 这 是 一 个 
更 困难 的 过 程 。 例 如 ， 可 以 从 磁带 将 所 有 数据 (假设 它 都 合适 ) 读 取 到 内 存 中 ， 然 后 对 内 存 中 的 记录 进行 排序 。 


基于 文件 的 数据 管理 系统 的 一 个 问题 是 ， 它 们 可 能 导致 重复 的 数据 。 另 一 个 开发 团队 可 能 需要 客户 数据 ， 但 希望 按 客户 名 称 
而 不 是 客户 ID 来 组 织 记 录 。 还 有 一 个 需要 访问 客户 数据 的 开发 人 员 可 能 不 知道 其 他 客户 文件 的 人 存在 或 不 想 使 用 他 人 的 文件 ， 因 
为 文件 的 结构 可 能 会 更 改 。 如 果 发 生 这 种 情况 ， 程 序 员 必 须 更 新 程序 以 反映 新 的 结构 。 


如 果 程 序 员 编写 了 一 个 程序 ， 假 定 客户 记录 是 如 前 所 述 进行 组 织 的 ， 那 么 程序 将 从 记录 开始 后 的 第 51 个 字符 开始 找到 客户 
地 址 ， 因 为 前 10 个 字符 由 客户 ID 占用 ， 接 下 来 的 40 个 字符 由 客户 名 称 占用 。 现 在 ， 假 设 设 计 原始 文件 布局 的 程序 员 决定 客户 名 
称 需要 50 个 字符 ， 那 么 改变 后 的 文件 组 织 如 下 。 


. 客户 ID 一 一 10 个 字符 

“ 客户 名 称 一 一 50 个 字符 

“ 客户 地 址 一 一 100 个 字符 

* 客户 电话 号 码 一 10 个 字符 


然后 ， 他 们 创建 了 一 个 新 文件 ， 将 数据 从 原始 文件 复制 到 新 版 本 ， 并 将 旧版 本 程序 替换 为 新 版 本 。 这 样 ， 针 对 以 前 文件 格式 
的 程序 读 取 第 51 个 字符 作为 客户 地 址 ， 但 现在 第 51 个 字符 却 是 客户 名 称 的 一 部 分 。 


平面 文件 管理 的 另 一 个 问题 是 ， 难 以 共享 包含 应 该 对 某 些 用 户 保密 的 信息 的 文件 。 比 如 ， 包 含 所 有 员工 的 姓名 、 地 址 、 电 话 
号 码 、 员 工 1D 和 职位 头衔 的 员工 文件 对 组 织 的 多 个 部 门 都 有 有 用。 但是， 如果 文 件 还 包含 工资 信息 ， 那 么 该 数据 应 该 仪 由 那些 有 
工作 职责 的 人 访问 ， 例 如 入 力 资 源 部 门 。 在 这 种 情况 下 ， 最 简单 的 解决 方案 可 能 是 有 两 个 员工 文件 副本 : 一 个 有 薪水 数据 ， 一 个 
没有 。 


这 个 解决 方案 引入 了 另 一 个 问题 : 两 个 文件 中 的 数据 可 能 变 得 不 一 致 。 如 果 员 工 变更 并 通知 人 力 资源 部 门 他 的 新 地 址 ， 那 么 
该 部 门 可 能 会 更 新 其 员工 文件 ， 也 就 是 具有 薪水 信息 的 文件 。 除 非 员 工 或 人 力 资源 部 门 的 人 员 通 知 负责 更 新 员工 文件 的 其 他 部 门 
的 人 员 ， 否 则 两 个 文件 中 的 数据 将 不 一 致 。 一 个 文件 将 具有 雇员 的 新 地 址 ， 而 另 一 个 文件 将 包含 雇员 的 旧地 址 。 


总 而 言 之 ， 平 面 文件 数据 管理 系统 的 局 限 性 包括 : 

:以 除了 在 文件 中 组 织 数据 的 方式 之 外 的 任何 方式 访问 数据 都 是 低 效 的 ， 比 如 ， 通 过 客户 ID。 
对 文件 结构 的 更 改 需 要 程序 的 适 配 。 

“ 不 同类 型 的 数据 具有 不 同 的 安全 要 求 。 

" 数据 可 能 存储 在 多 个 文件 中 ， 导 致 难以 维护 一 致 的 数据 集 。 


因此 ， 尝 试 解决 平面 文件 数据 管理 系统 的 局 限 性 问题 带动 了 分 层 数 据 模型 和 网 络 数据 模型 的 发 展 。 


(2) 分 层 数据 管理 系统 


平面 文件 数据 管理 系统 的 限制 之 一 是 搜索 效率 较 低 ， 而 分 层 数据 模型 可 以 通过 使 用 父子 关系 的 层次 结构 组 织 数 据 来 解决 这 个 


问题 。 
@ 分 层 数 据 管 理 系统 的 组 织 


层次 结构 从 连接 到 顶层 数据 节点 或 记录 的 根 节点 开始 。 这 些 顶 层 记 录 可 以 有 子 记 录 ， 包 含有 关 父 记录 的 附加 数据 。 逻 辑 组 织 
如 图 5-14 所 示 。 


| | | | 
-a 
| | | 


图 5-14 ”分 层 模型 被 组 织 成 一 组 父子 关系 





考虑 银行 的 贷款 部 门 可 能 跟踪 的 数据 类 型 。 它 有 客户 和 每 个 客户 的 一 个 或 多 个 贷款 记录 。 对 于 每 个 客户 ， 贷 款 部 门将 要 跟踪 
客户 的 姓名 、 地 址 和 电话 号 码 。 对 于 每 笔 贷 款 ， 贷 款 部 门 应 跟踪 贷款 金额 、 利 率 、 贷 款 日 期 以 及 贷款 到 期 日 。 客 户 可 以 一 次 拥有 
多 个 贷款 ， 贷 款 可 能 有 多 个 客户 与 之 相关 联 。 图 5-15 显 示 了 这 样 一 个 数据 库 的 逻辑 组 织 。 


Dr 


图 5-15 ”贷款 管理 数据 库 的 分 层 数据 模型 


分 层 模 型 相对 于 平面 文件 的 优点 是 搜索 更 高 效 ， 它 不 必 扫 摘 磁 带 上 的 所 有 数据 以 搜索 数据 块 ， 可 以 仅 扫 摘 客户 记录 以 搜索 特 
定 客 户 的 贷款 记录 。 一 旦 找到 客户 记录 ， 程 序 可 以 搜索 客户 的 贷款 ， 以 及 特定 的 贷款 利息 。 


@ 分 层 数据 管理 系统 的 局 限 性 


当 管 理 的 实体 可 以 组 织 成 父子 天 系 ， 特 别 是 一 个 父 对 象 拥有 一 个 或 多 个 子 对 象 时 ， 分 层 数据 管理 系统 能 够 很 好 地 工作 。 一 
客户 有 一 个 贷款 容易 管理 。 一 个 有 三 个 贷款 的 客户 也 很 容易 管理 。 两 个 客户 拥有 一 个 贷款 ， 如 两 个 商业 伙伴 使 用 同一 个 短期 商业 
贷款 ， 却 不 是 那么 容易 表示 。 


在 两 个 客户 使 用 相同 贷款 的 情况 下 ， 分 层 数据 管理 系统 将 不 得 不 复制 关于 两 个 客户 的 贷款 的 信息 。 这 产生 三 个 问题 。 首 先 ， 
它 使 得 存储 空间 的 使 用 效率 低下 。 此 外 ， 与 平面 文件 管理 系统 情况 下 的 重复 数据 一 样 ， 如 果 无 法 确保 任何 改变 被 应 用 于 数据 的 所 
有 副本 ， 则 可 能 导致 不 一 致 的 数据 。 而 且 ， 聚 合 数据 时 可 能 会 出 现 错误 。 例 如 ， 为 了 找到 所 有 未 偿还 贷款 的 总 价值 ， 程 序 员 不 能 
只 读 取 所 有 贷款 记录 并 将 所 有 贷款 额 一 起 添加 。 由 于 一 些 贷款 有 多 个 副本 ， 每 个 客户 一 个 ， 简 单 地 添加 所 有 贷款 记录 的 所 有 副本 
将 总 计 总 贷款 金额 大 于 实际 金额 。 程 序 员 必须 采取 措施 ， 每 个 贷款 只 计算 一 次 。 


为 了 解决 分 层 模型 的 局 限 性 ， 数 据 管理 系统 设计 者 转向 网 络 数据 模型 。 
(3) 网 络 数据 管理 系统 


网 络 数据 模型 类 似 于 分 层 数 据 模 型 ， 因 为 它 使 用 记录 之 间 的 链接 。 然 而 ， 与 分 层 数据 模型 不 同 ， 网 络 数据 模型 不 限于 仅 有 一 
个 父 记录 。 此 外 ， 与 平面 文件 数据 管理 系统 和 分 层 数 气管 理 系统 不 同 ， 网 络 数据 管理 系统 有 两 个 基本 组 件 : 模式 和 数据 库 本 身 。 


@@ 网 络 数 据 管 理 系统 的 组 织 


网 络 由 链接 在 一 起 的 数据 记录 组 成 。 数 据 记 录 称 为 节点 ， 链 接 称 为 边 ， 节 点 和 边 的 集合 称 为 图 。 网 络 数据 模型 对 如 何 使 用 边 
有 两 个 重要 的 约束 。 第 一 个 约束 是 边 有 方向 。 这 允许 表示 父子 关系 ， 也 称 为 一 对 多 关系 (参见 图 5-16) 。 此 外 ， 网 络 数据 模型 
允许 多 个 父母 ， 例 如 两 个 客户 共享 一 个 贷款 ， 不 用 重复 数据 它 也 可 以 代表 两 个 客户 有 两 个 贷款 。 这 称 为 多 对 多 关系 。 


另 一 个 约束 是 图 中 不 能 有 循环 。 也 就 是 说 ， 如 果 从 一 个 起 始 节 点 链接 到 下 一 节点 ， 下 一 节点 再 链接 到 另外 一 个 节点 ， 依 此 类 
推 ， 永 远 不 会 链接 回 到 起 始 节点 。 具 有 有 向 边 和 无 循环 的 图 称 为 有 向 无 环 图 (参见 图 5-17) 。 


节点 间 链 接 建立 的 其 他 约束 来 自 尝试 建 模 的 实体 。 例 如 ， 在 银行 数据 库 中 ， 客 户 可 以 有 地 址 ， 但 贷款 和 银行 账户 不 需要 。 在 
人 力 资源 数据 库 中 ， 员 工 可 以 在 组 织 中 担任 职位 ， 但 部 门 不 能 。 可 以 链接 到 其 他 节点 的 节点 在 我 们 称 为 模式 的 结构 中 定义 (参见 
图 5-18) 。 





图 5-16 ”父子 关系 由 有 向 边 表示 
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图 5-17 该 图 有 循环 ,但 不 是 有 向 无 环 图 ， 也 不 是 网 络 数据 管理 系统 的 模型 
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图 5-18 ”简单 的 网 络 模 式 显示 哪些 实体 可 以 链接 到 其 他 实体 


网 络 数据 管理 系统 的 另 一 部 分 是 数据 库 本 身 ， 这 是 根据 模式 来 存储 的 数据 实际 位 置 。 网 络 数据 库 相 对 于 以 前 方法 的 进步 之 一 
是 ， 它 于 1969 年 被 数据 系统 语言 会 议 (CODASYL) 联盟 标准 化 ， 因 此 成 为 大 多 数 网 络 数据 库 实 现 的 基础 。 


@ 网 络 数据 管理 系统 的 局 限 性 


网 络 数 据 库 的 主要 限制 是 它们 可 能 难以 设计 和 维护 。 根 据 节点 如 何 链 接 ， 程 序 可 能 需要 遍历 大 量 的 链接 以 获得 具有 所 需 数 据 
的 节点 。 例 如 ， 如 果 必 须 从 客户 记录 开始 获取 贷款 记录 ， 然 后 到 贷款 支付 历史 记录 ， 则 必须 遍历 从 客户 到 贷款 支付 历史 的 两 个 链 
接 。 随 着 数据 模型 变 得 更 复杂 ， 链 路 的 数量 和 路 径 的 长 度 可 以 变 得 相当 长 。 此 外 ， 如 果 在 部 署 网 络 数据 库 之 后 ， 数 据 库 设 计 者 确 
定 需要 另 一 个 实体 或 节点 类 型 ， 则 访问 网 络 数据 库 的 程序 将 必须 被 更 新 。 而 向 模式 和 数据 库 添加 节点 会 更 改 程序 ， 必 须 遍 历 以 获 
取 到 | 特定 节点 的 路 径 。 


早期 数据 库 管 理 系 统 摘 要 


早期 的 数据 库 管 理 系统 包括 平面 文件 、 分 层 和 网 络 数据 库 。 


平面 文件 数据 管理 系统 倾向 于 将 单个 实体 的 数据 全 部 保存 在 单个 记录 中 。 这 是 一 个 简单 的 结构 ， 但 会 导致 重复 的 数据 和 低 效 
的 检索 ， 难 以 实施 安全 控制 来 保护 平面 文件 管理 系统 中 的 机 密 数 据 。 


分 层 数据 管理 系统 允许 父子 关系 。 这 可 以 避免 重复 父 数据 ， 因 为 仅 需要 父 记录 的 一 个 副本 。 因 为 数据 被 组 织 成 不 同 的 记录 ， 
所 以 数据 检索 可 以 更 有 效率 。 例 如 ， 在 贷款 数据 库 中 搜索 客户 可 能 需要 扫描 所 有 客户 记录 ,但 至 少 程序 不 必 扫 档 贷款 数据 。 

注意 ， 虽 然 分 层 数据 管理 系统 避免 了 平面 文件 管理 系统 中 的 一 些 重复 数据 ， 但 仍然 存在 重复 数据 的 可 能 性 。 例 如 ， 在 贷款 数 
据 库 必须 为 单个 贷款 建 模 多 个 客户 的 情况 下 ， 可 能 会 发 生 这 种 情况 。 

通过 多 许多 个 父母 ， 网 络 数据 管理 系统 改进 了 分 层 数据 库 。 网 络 数据 管理 系统 还 包括 定义 节点 类 型 之 间 的 有 效 关 系 的 模式 。 
表示 父子 和 多 对 多 关系 的 能 力 是 相对 于 平面 文件 和 分 层 数 据 管理 系统 的 优点 。 早 期 数据 库 管理 系统 的 缺点 包括 重复 数据 ， 难 以 实 
施 安全 性 ， 低 效 搜索 ， 以 及 难以 维护 访问 数据 库 的 程序 代码 。 当 数据 库 的 结构 发 生变 化 时 ， 程 序 必须 改变 的 原因 是 ， 数 据 库 的 你 
辑 组 织 与 在 磁带 或 磁盘 上 的 数据 物理 存储 方式 之 间 没 有 独立 性 。 


正如 我 们 接 下 来 将 看 到 的 ， 数 据 库 的 逻辑 和 物理 组 织 的 结构 独立 性 是 关系 数据 库 管 理 系统 的 主要 进步 。 
3. 关 系数 据 库 演进 


虽然 网 络 和 分 层 数 据 管理 系统 改进 了 平面 文件 数据 管理 系统 ， 但 直到 1970 年 ，E.F.Codd 发 表 了 一 篇 关于 新 型 数据 库 设 计 的 
论文 ， 才 使 数据 管理 技术 发 生 了 根本 改变 。 关 系数 据 库 设计 的 许多 重要 方面 是 对 以 前 的 数据 管理 模型 的 改进 。 关 系数 据 库 基于 使 
用 天 系 代数 来 描述 数据 及 其 关系 的 正式 数学 模型 。 天 系数 据 库 将 数据 结构 的 逻辑 组 织 与 这 些 结构 的 物理 存储 分 开 。Codd 和 其 他 
人 制定 了 设计 关系 数据 库 的 规则 ， 消 除了 某 些 类 型 数据 异常 的 潜在 可 能 性 ， 例 如 不 一 致 的 数据 。 


dm 
注意 


关系 数据 库 的 许多 方面 值得 深入 审视 。 然 而 ， 本 节 仅 提供 对 关键 点 的 最 低 限 度 的 高 级 别 审视 。 有 关 关 系数 据 库 的 更 多 信息 ， 
请 参见 Michael J.Hernandez 的 《Database Design for Mete Mottals: A Hands-On Guide to Relational Database Design》 (Addison 


Wesley,2003) 。 
(1) 关系 数据 库 管理 系统 


关系 数据 库 管 理 系统 是 由 管理 数据 并 人 允许 应 用 程序 用 户 添加 、 更 新 、 读 取 和 删除 数据 的 多 个 程序 组 成 的 应 用 程序 。 与 平面 文 
件数 据 存 储 不 同 (每 次 创建 用 于 存储 的 新 文件 时 ， 程 序 员 不 得 不 开发 用 于 操作 数据 的 程序 ) ， 天 系数 据 库 管 理 系统 被 设计 为 使 用 
通用 语言 来 操纵 数据 ， 该 语言 称 为 SQL， 并 且 在 关系 数据 库 管理 系统 中 进行 标准 化 。 虽 然 SQL 是 一 种 与 关系 数据 库 一 起 使 用 的 语 
言 , 但 它 有 时 被 用 作 “关系 ”的 简写 ,如 “SQL 数 据 库 ” 或 “NoSQL” 。 


关系 数据 库 管 理 系 统 (RDBMS) 的 大 多 数 用 户 不 直接 使 用 数据 库 软件 。 相 反 ， 他 们 使 用 由 软件 开发 人 员 创 建 的 应 用 程序 ， 
这 些 应 用 程序 与 RDBMS 交 互 。 之 所 以 解释 关系 数据 库 ， 是 因为 它 有 助 于 单独 描述 RDBMS 的 功能 和 上 典型 的 数据 库 应 用 程序 。 


(2) 关系 数据 库 管理 系统 的 组 织 
关系 数据 库 管理 系统 是 用 于 管理 数据 和 操作 数据 的 一 组 程序 。 实 施 RDBMS 的 最 低 要 求 包括 以 下 四 个 组 成 部 分 : 
" 存储 管理 程序 ; 


-内存 管理 程序 ; 


这 四 个 组 件 一 起 提供 了 RDBMS 的 核心 数据 管理 和 数据 检索 服务 。 
@ 存 储 管理 程序 


数据 库 系 统 将 数据 永久 存储 在 磁盘 和 闪存 驱动 器 上 以 进行 长 期 存储 。 数 据 库 存储 可 以 直接 连接 到 服务 器 或 运行 数据 库 的 其 他 
设备 。 例 如 ， 运 行 MySQL 数 据 库 的 便携 式 计 算 机 可 以 在 本 地 磁盘 驱动 器 上 持久 地 存储 数据 。 在 大 型 企业 中 ，IT 部 门 可 能 提供 共 
享 存储 。 在 这 种 情况 下 ， 大 型 磁盘 阵列 作为 单个 资源 进行 管理 ， 数 据 库 服务 器 可 以 将 数据 保存 到 这 些 存 储 阵列 并 从 中 读 取 数据 

(参见 图 5-19) 。 





本 地 存储 


图 5-19 ”本 地 存储 与 共享 存储 


不 管 使 用 什么 类 型 的 存储 系统 ，RDBMS 必 须 跟踪 每 条 数据 存储 在 哪里 。 磁 带 存储 的 一 个 缺点 是 需要 顺序 搜索 磁带 以 检索 数 
据 ， 磁 盘 和 闪存 设备 不 受 此 限制 。 这 使 得 RDBMS 设 计 者 能 够 改进 检索 方法 。 


与 基于 平面 文件 的 数据 存储 一 样 ，RDBMS 在 最 基本 的 层面 上 读 取 和 写 入 数据 块 。 磁 盘 技术 使 得 更 容易 创建 和 使 用 数据 索 
引 。 索 引 是 包含 关于 数据 库 保 存 的 数据 块 的 位 置信 息 的 数据 集 。 它 基于 数据 中 包含 的 某 些 属性 ， 如 客户 1D 或 客户 名 称 。 


索引 指向 磁盘 或 闪存 上 的 位 置 。 例 如 ， 具 有 数据 “Smith，Jane 18277372” 的 索引 将 指示 具有 关于 Jane Smith 的 信息 的 数 
据 块 位 于 盘 位 置 18277372 处 。 


RDBMS 中 的 存储 管理 程序 不 仅仅 跟踪 数据 的 位 置 。 它 们 还 可 以 优化 磁盘 上 的 数据 放置 ， 压 缩 数据 以 节省 存储 ， 以 及 复制 数 
据 块 ， 以 便 在 磁盘 上 的 数据 块 故障 时 不 会 丢失 数据 。 


@ 内 存 管理 程序 


RDBMS 还 负责 管理 内 存 中 的 数据 。 通 常 ， 存 储 在 数据 库 中 的 数据 的 大 小 大 于 可 用 内 存 。RDBMS 内 存 管理 组 件 负 责 在 内 存 
中 引入 和 保持 需要 的 数据 ， 并 在 不 再 需要 时 删除 它 ， 或 为 附加 数据 腾 出 空间 。 因 为 从 内 存 读 取 数 据 的 速度 比 从 磁盘 读 取 数据 的 速 
度 快 一 个 数量 级 ， 所 以 RDBMS 高 效 使 用 内 存 的 能 力 对 整体 性 能 有 巨大 影响 。 


@ 数 据 字典 


数据 字典 是 RDBMS 的 一 部 分 ， 它 用 于 跟踪 存储 在 数据 库 中 的 数据 结构 的 信息 ( 见 图 5-20) 。 它 涉及 有 关 多 级 数据 库 结构 的 
信息 ， 包 括 以 下 内 容 : 


模式; 
“ 表 ; 
列 ; 


索引 ; 











图 5-20 ”数据 字典 管理 的 数据 结构 


模式 是 所 有 与 一 组 数据 相关 的 表 、 视 图 、 索 引 和 其 他 结构 的 集合 。 通 常 ， 不 同 应 用 程序 类 型 具有 不 同 的 模式 ， 例 如 产品 库 
存 、 应 收 账 款 或 员工 及 其 收益 。 


表 是 拥有 有 关 实 体 的 数据 的 结构 。 实 体 指 的 是 与 RDBM 支持 的 业务 或 操作 相关 的 物理 或 逻辑 事物 。 人 力 资源 模式 的 实体 可 
能 包括 员工 、 经 理 和 部 门 。 仓 库 模 式 可 能 包括 仓库 信息 、 产 品 和 供应 商 。 


表 由 列 组 成 。 列 包含 单个 信息 单元 。 员 工 表 可 能 包含 以 下 内 容 : 员工 名 字 、 姓 氏 、 街 道 地 址 、 城 市 、 州 、 邮 政 编码 、 出 生日 
期 和 工资 。 列 具有 类 型 ， 以 指示 可 以 存储 的 数据 的 种 类 。 例 如 ， 名 字 可 以 是 字符 数据 ， 出 生日 期 是 日 期 类 型 ， 工 资 是 某 种 类 型 的 
数字 或 货币 类 型 。 


如 前 所 述 ， 索 引 是 RDBMS 用 来 提高 检索 数据 速度 的 数据 结构 。 员 工 表 可 能 具有 员工 姓氏 的 索引 ， 以 便 按 姓氏 快速 查找 员工 
数据 。 


约束 是 限制 列 可 以 存储 的 数据 的 规则 。 与 列 相关 联 的 数据 类 型 可 防止 错误 类 型 的 数据 保存 到 列 。 程 序 可 能 会 错误 地 尝试 向 员 


工 名 字 列 写 一 个 数字 ， 但 数据 库 会 阻止 它 。 负 数 也 是 有 效 的 数字 或 货币 值 ， 并 且 在 薪水 列 中 允许 。 我 们 可 以 向 薪水 列 添加 约束 ， 
以 指定 工资 必须 大 于 0。 约 束 通 常 基于 关于 数据 表示 的 实体 和 操作 的 业务 规则 来 建立 。 


视图 是 一 个 或 多 个 表 的 相关 列 的 集合 ， 以 及 从 多 列 中 的 数据 计算 的 值 。 视 图 可 用 于 限制 用 户 看 到 的 数据 。 例 如 ， 如 果 员 工 表 
具有 薪水 信息 ， 则 可 以 创建 一 个 视图 ， 其 中 包括 员工 表 中 的 所 有 非 薪水 列 。 需 要 访问 员工 姓名 和 地 址 的 用 户 可 以 使 用 该 视图 ， 而 
不 是 员工 表 。 视 图 还 可 以 组 合 来 自 多 个 表 的 数据 ， 例 如 员工 表 和 员工 升 职 详情 表 。 





@ 查 询 语言 


RDBMS 中 的 查询 语言 可 以 执行 两 种 类 型 的 操作 : 定义 数据 结构 和 操作 数据 。SQL 是 关系 数据 库 的 查询 语言 ， 由 用 于 执行 这 
两 种 类 型 的 操作 的 语句 组 成 。 


A.SQL 数 据 定义 语言 


SQL 包括 允许 程序 员 创建 和 删除 模式 、 表 、 视 图 、 索 引 、 约 束 和 其 他 数据 结构 的 语句 。 它 还 提供 用 于 在 表 中 添加 和 删除 列 以 
及 授予 读 取 或 写 入 表 的 访问 权限 的 语句 。 以 下 是 创建 模式 的 示例 语句 : 


CREATE SCHEMA humresc 














以 下 是 创建 表 的 示例 语句 : 














CREATE TABLE employee ( 

emp id int, 

emp first name varchar (25), 
emp last name varchar (25), 
emp agddress varchar (50), 

emp City varchar (50), 

emp state varchar (2), 

emp zip varchar (5), 

emp position title varchar (30) 


这 些 语句 的 细节 并 不 重要 ， 但 它们 显示 了 SQL 声明 的 风格 。 语 句 不 是 用 于 告诉 计算 机 如 何 创建 数据 结构 ， 例 如 在 特定 地 址 创 
建 一 个 空闲 的 数据 块 ， 而 是 告诉 RDBM 我 们 想 要 什么 样 的 数据 结构 。 在 第 一 个 语句 中 ， 创 建 了 一 个 名 为 humresc 的 模式 (人 力 
资源 的 缩写 ) 。 在 第 二 个 语句 中 ， 使 用 八 列 来 创建 一 个 名 为 employee 的 表 。varchar 是 一 个 可 变 长 度 字符 类 型 。 每 个 varchar 术 
语 的 数字 是 列 的 最 大 长 度 。int 代 表 整 数 ， 表 示 emp_id 是 一 个 整数 。 


B.SQL 数 据 操作 语言 
一 旦 有 一 个 带 有 表 的 模式 ， 你 可 以 开始 添加 数据 并 操作 它 。SQL 数 据 操作 语言 包括 以 下 语句 : 
“ 插入 数据 INSERT; 
更 新 数据 UPDATE; 


- 删除 数据 DELETE; 





“ 读 取 数据 SELECT。 
以 下 是 employee 表 的 INSERT 语 句 示例 : 


INSERT INTO employee (emp id, first name, last name) 
VALUES (1234, ‘Jane’, ‘Smith’) 








此 语句 向 employee 表 中 添加 一 行 ， 其 emp_id 为 1234， 名 称 为 “Jane”， 姓 氏 为 “Smith”。 表 的 其 他 列 将 为 NULL， 用 于 
指示 列 没有 指定 值 的 特殊 数据 值 。 


更 新 和 删除 语句 允许 用 户 更 改 现 有 行 中 的 值 或 删除 现 有 行 。 要 从 数据 库 读 取 数据 ， 请 使 用 SELECT 语句 。 例 如 : 


SELECT emp id, first name, last name 











ERO employee 

会 产生 如 下 输出 : 

emp id first name last name 
1234 Jane Smitn 


数据 操作 语言 (DML) 语句 能 够 在 SELECT、UPDATE 和 DELETE 语 句 中 使 用 相当 复杂 的 逻辑 来 表示 复杂 操作 和 定位 特定 数 
据 行 。 
关系 数据 库 管 理 系 统 提供 存储 管理 、 内 存 管 理 、 数 据 字典 和 查询 语言 。 虽 然 程序 员 和 软件 开发 人 员 可 能 很 容易 直接 使 用 
SQL, 但 数据 库 应 用 程序 允许 任何 计算 机 用 户 使 用 关系 数据 库 。 
(3) 使 用 关系 数据 库 管理 系统 组 织 应 用 程序 
广义 上 说 ， 可 以 将 使 用 关系 数据 库 的 应 用 程序 视 为 具有 三 个 主要 组 件 : 
- 用户 界面 ; 
` 业务 逻辑 ; 
-数据库 代码 。 


用 户 界 面 用 于 支持 用 户 的 工作 流 。 例 如 ， 使 用 人 力 资源 应 用 程序 的 人 可 能 需要 查找 员工 的 工资 、 更 改 员工 的 职位 或 添加 新 员 
工 。 用 户 使 用 菜单 和 其 他 用 户 界 面 抽 象 来 调用 数据 输入 表单 ， 根 据 需要 更 新 数据 ， 并 将 更 改 保存 到 数据 库 ， 而 不 需要 暴露 于 SQL 
或 RDBMS。 


业务 逻辑 用 于 执行 计算 和 检查 业务 规则 。 例 如 ， 业 务 规则 可 以 检查 员工 的 年 龄 以 验证 员工 是 否 超 过 21 岁 ， 然 后 将 职位 “ 调 


数据 库 代 码 是 对 数据 库 执行 操作 的 一 组 SELECT、INSERT、UPDATE 和 DELETE (等 等 ) 语句 。 这 些 语句 对 应 于 用 户 通过 用 
户 界面 执行 的 操作 。 

数据 库 应 用 程序 使 关系 数据 库 和 其 他 类 型 的 数据 库 的 功能 可 供 非 编程 人 员 

访问 。 

(4) 关系 型 数据 库 的 限制 

几 十 年 来 ， 关 系数 据 库 一 直 是 用 于 数据 库 应 用 程序 的 主要 数据 库 类 型 。 关 系数 据 库 解 决 了 平面 文件 数据 库 、 分 层 数 据 库 和 网 
络 数据 库 的 许多 限制 。 然 而 ， 随 着 Web 的 出 现 ， 关 系数 据 库 的 限制 日 益 凸 显 。 

像 谷 歌 、Linkedln、Yahool! 和 亚马逊 这 样 的 公司 发 现 ， 在 Web 上 支持 大 量 用 户 不 同 于 支持 小 数量 的 业务 用 户 ， 甚 至 不 同 
于 大 型 企业 使 用 的 支持 数 干 用 户 规模 的 单个 数据 库 。 


拥有 大 量 数 据 和 超大 量 用 户 的 Web 应 用 程序 开发 人 员 发 现 ， 他 们 需要 支持 
大 量 的 读 写 操作 ; 

“ 低 延迟 响应 时 间 ，; 

高 可 用 性 。 


使 用 天 系数 据 库 难 以 实现 这 些 需求 。 这 些 不 是 需要 提高 性 能 的 第 一 批 数据 库 用 户 。 问 题 是 ， 过 去 使 用 的 技术 随 着 企业 用 户 的 
增长 和 数据 规模 的 扩大 已 无 法 正常 工作 。 在 过 去 ， 如 果 关 系数 据 库 运 行 缓慢 ， 可 以 使 用 更 多 的 CPU、 额 外 的 内 存 或 更 快 的 存储 
设备 进行 升级 。 这 是 一 个 昂贵 的 选择 。 但 是 在 单个 服务 器 中 可 以 支持 的 CPU 数量 和 内 存 数量 是 有 限制 的 。 数 据 库 设 计 者 可 以 重 
新 设计 数据 库 模式 以 提高 性 能 ， 但 代价 是 会 带 来 更 多 的 数据 异常 的 风险 。 (这 些 技术 称 为 反 规范 化 。) 


另 一 个 选择 是 在 多 个 服务 器 上 使 用 天 系数 据 库 。 这 是 可 能 的 ， 但 是 在 多 个 服务 器 上 操作 单个 天 系数 据 库 管 理 系统 是 一 个 复杂 
的 操作 。 这 会 带 来 长 期 管理 的 复杂 性 。 当 支持 在 不 同 服务 器 上 运行 但 是 必须 全 部 成 功 完成 或 全 部 失败 的 一 系列 操作 时 ， 还 存在 性 
能 问题 。 这 些 成 功 或 失败 的 操作 集合 称 为 事务 。 随 着 数据 库 集 群 中 的 服务 器 数量 增加 ， 实 施 事务 的 成 本 也 在 增加 。 


尽管 有 这 些 困 难 ， 一 些 公司 ， 如 Facebook， 还 是 使 用 MySQL 关 系数 据 库 进行 部 分 操作 。 然 而 ， 他 们 有 一 个 专职 的 MySQL 
工作 人 员 ， 把 MySQL 的 限制 通知 到 其 他 人 。 大 多 数组 织 没 有 这 样 的 资源 。 对 于 那些 组 织 ， 如 果 天 系数 据 库 不 能 满足 需要 ， 那 么 
可 能 是 考虑 一 个 NoSQL 数 据 库 的 时 候 了 。 


4.NOSQL 数 据 库 的 动机 


服务 成 干 上 万 或 更 多 用 户 的 Web 应 用 程序 难以 使 用 关系 数据 库 实现 。 现 实 问题 的 压迫 激发 了 创建 NoSQL 数 据 库 的 数据 管理 
专业 人 员 和 软件 设计 者 。 而 适用 大 规模 数据 管理 任务 的 新 型 数据 管理 系统 的 四 个 特点 是 : 


* 可 扩展 性 ， 

成本; 

. 灵活 性 ; 

可 用 性 。 
根据 特定 应 用 的 需要 ， 其 中 一 些 特 性 可 能 比 其 他 特性 更 重要 。 
(1) 可 扩展 性 


可 扩展 性 是 有 效 满足 不 同 工 作 负载 需求 的 能 力 。 例 如 ， 如 果 网 站 流量 达到 峰值 ， 则 可 以 添加 服务 器 以 处 理 额 外 的 负载 。 当 峰 
值 缓解 并 且 流 量 恢复 正常 时 ， 其 中 一 些 额外 的 服务 器 可 以 关闭。 根据 需要 添加 服务 器 称 为 横向 扩展 。 


当 使 用 关系 数据 库 时 ， 横 向 扩展 通常 是 一 个 挑战 。 我 们 可 能 需要 附加 的 数据 库 软 件 来 管理 作为 单个 数据 库 系 统 工作 的 多 个 服 
务 器 。 例 如 ，Oracle 为 基于 集群 的 数据 库 提 供 Oracle Real Applications 集 群 软件 (RAC) 。 额 外 的 数据 库 组 件 会 增加 操作 的 复 
杂 性 和 成 本 。 


或 者 ， 数 据 库 管 理 员 可 以 选择 纵向 扩展 ， 即 通过 升级 现 有 的 数据 库 服务 器 ， 以 增加 额外 的 处 理 器 、 内 存 、 网 络 带宽 或 其 他 资 
源 。 使 用 其 他 CPU、 人 存储 性 能 更 强 的 资源 (纵向 扩展 ) 或 是 通过 增加 数量 来 提升 性 能 (横向 扩展 ) ， 都 是 可 行 的 方法 ( 见 图 5- 
21) 。 





横向 扩展 纵 癌 扩展 


图 5-21 横向 扩展 和 纵向 扩展 


横向 扩展 比 纵 向 扩展 更 灵活 。 可 以 根据 需要 在 横向 扩展 时 添加 或 删除 服务 器 。NoSQL 数 据 库 设 计 目 标 之 一 是 在 数据 库 管理 
员 的 最 少 干预 下 集群 正常 运行 。 随 着 新 服务 器 的 添加 或 删除 ，NoSQL 数 据 库 管理 系统 将 自动 调整 以 使 用 新 的 可 用 服务 器 。 通 过 
更 换 服务 器 进行 纵向 扩展 需要 将 数据 库 管理 迁移 到 新 服务 器 。 通 过 添加 资源 来 横向 扩展 不 需要 迁移 ， 但 可 能 需要 一 些 停机 时 间 来 
向 数据 库 服务 器 添加 硬件 或 机 器 。 


(2) 成 本 


数据 库 许可 证 (license) 的 成 本 是 任何 企业 或 组 织 的 重要 考虑 因素 。 商 业 软件 供应 商 使 用 各 种 许可 模型 ， 包 括 运行 RDBMS 
的 服务 器 的 大 小 、 数 据 库 上 并 发 用 户 的 数量 或 允许 使 用 该 软件 的 用 户 的 数量 。 每 一 个 模型 都 对 数据 库 系统 的 用 户 提出 了 挑战 。 


Web 应 用 程序 可 能 在 流量 上 有 很 大 的 波动 ， 这 意味 着 使 用 数据 库 的 用 户 数量 会 随时 增加 。RDBMS 是 应 该 按照 使 用 的 峰值 用 
户 数量 进行 付费 ， 还 是 平均 用 户 数量 进行 付费 呢 ” 当 难以 知道 有 多 少 用户 将 在 六 个 月 或 一 年 后 使 用 系统 时 ， 他 们 应 如 何 做 
RDBMS 许 可 证 的 预算 ? 开源 软件 的 用 户 避免 了 这 些 问 题 。 该 软件 可 以 在 任意 大 小 的 服务 器 上 免费 使 用 ， 因 为 开源 开发 人 员 通 常 
不 收取 运行 软件 的 费用 。 幸 运 的 是 ， 对 于 NoSQL 数 据 库 用 户 来 说 ， 主 要 的 NoSQL 数 据 库 是 开源 的 。 


第 三 方 公司 为 开源 NoSQL 数 据 库 提供 商业 支持 服务 ， 因 此 企业 可 以 像 商 业 化 的 关系 数据 库 一 样 拥有 软件 支持 。 
(3) 灵活 性 


关系 数据 库 管 理 系 统 在 使 用 关系 数据 模型 可 以 解决 的 问题 范围 内 是 灵活 的 。 银 行 、 制 造 、 零 售 、 能 源 和 医疗 保健 等 不 同 的 行 
业 都 使 用 关系 数据 库 。 然 而 ， 关 系数 据 库 在 其 他 方面 灵活 性 较 低 。 


数据 库 设 计 人 员 需 要 在 项 目 开始 时 知道 应 用 程序 所 需 的 所 有 表 和 列 ， 通 常 还 假定 表 中 的 大 多 数列 将 被 大 多 数 行 所 需要 。 例 
如 ， 所 有 员工 都 将 有 姓名 和 员工 ID。 有 时 ， 模 型 化 的 问题 不 是 那么 同 构 的 。 以 使 用 数据 库 来 跟踪 产品 属性 的 电子 商务 应 用 程序 
为 例 。 计 算 机 产品 具有 这 些 属性 ， 如 CPU 类 型 、 内 存量 和 磁盘 大 小 。 微 波 炉 具有 诸如 尺寸 和 功率 的 属性 。 数 据 库 设 计 者 可 以 为 


每 种 类 型 的 产品 创建 单独 的 表 ， 或 者 定义 一 张 拥有 所 有 产品 的 属性 的 表 。 

与 天 系数 据 库 不 同 ， 一 些 NoSQL 数 据 库 不 需要 固定 的 表 结 构 。 例 如 ， 在 文档 数据 库 中 ， 程 序 可 以 根据 需要 动态 地 添加 新 属 
性 ， 而 不 必 让 数据 库 设 计 者 改变 数据 库 设计 。 

(4) 可 用 性 

我 们 都 希望 网 站 和 网 络 应 用 程序 能 够 随时 可 用 。 如 果 我 们 最 喜欢 的 社交 媒体 或 电子 商务 网 站 经 常 宕 机 ， 我 们 很 可 能 需要 寻找 
一 个 新 的 替换 者 。 

NoSsQL 数 据 库 旨 在 利用 多 个 低 成 本 服务 器 。 当 一 个 服务 器 发 生 故 障 或 退出 服务 进行 维护 时 ， 集 群 中 的 其 他 服务 器 可 承担 整 
个 工作 负载 (参见 图 5-22) 。 性 能 可 能 相对 较 低 ， 但 应 用 程序 仍然 可 用 。 如 果 数 据 库 在 单个 服务 器 上 故障 ， 则 应 用 程序 将 不 可 


用 ， 除 非 有 备份 服务 器 。 备 份 服务 器 保留 来 自主 服务 器 的 数据 副本 ， 以 防 主 服务 器 出 现 故障 。 如 果 发 生 这 种 情况 ， 备 份 服务 器 可 
以 承担 主 服务 器 处 理工 作 负 载 。 这 可 能 是 一 个 低 效 的 配置 ， 因 为 备份 服务 器 要 一 直 处 于 待机 状态 。 





服务 大 失败 


图 5-22 ”高 可 用 性 NoSQL 集群 运行 于 多 个 服务 器 。 如 果 一 个 失败 ， 其 他 服务 器 可 以 继续 支持 应 用 程序 


当 现 有 的 RDBMS 无 法 满足 其 需求 时 ， 数 据 库 设计 者 转向 NoSQL 系 统 。 可 扩展 性 、 低 成 本 、 灵 活性 和 可 用 性 对 于 应 用 程序 开 
发 人 员 来 说 是 越 来 越 重要 的 问题 ， 他 们 对 数据 库 管 理 系统 的 选择 反映 了 这 一 点 。 


5. 小 结 


受到 现 有 计算 能 力 和 存储 技术 的 限制 ， 数 据 管理 系统 已 经 发 展 到 了 一 个 瓶 巴 ， 难 以 满足 不 断 变化 的 应 用 需求 。 早 期 的 数据 管 
理 系统 基于 存储 在 平面 文件 中 的 记录 ， 这 些 提供 了 持久 存储 数据 的 基本 能 力 ， 但 也 遇 到 了 许多 问题 ， 包 括 缓慢 的 搜索 /检索 操 
作 、 元 余数 据 和 较 差 的 安全 性 。 


分 层 数 据 库 是 对 平面 文件 的 改进 。 这 些 系统 允许 记录 之 间 的 父子 关系， 有 助 于 减少 元 余数 据 ， 但 不 能 消除 。 网 络 数据 库 通 过 
允许 多 个 父子 关系 进一步 改进 分 层 数 据 库 ， 这 些 通常 被 称 为 多 对 多 关系 。 


关系 数据 库 的 发 展 代 表 了 对 平面 文件 、 分 层 和 网 络 数据 库 的 彻底 改进 。 关 系数 据 库 基 于 一 个 合理 的 数学 基础 。 天 系数 据 库 的 
设计 规则 消除 了 一 系列 数据 异常 的 可 能 性 ， 例 如 不 一 致 的 数据 。 关 系数 据 库 虚拟 地 替换 了 业务 应 用 程序 中 的 所 有 其 他 类 型 的 数据 
管理 系统 。 


尽管 天 系数 据 库 得 到 了 广泛 的 使 用 ， 但 是 电子 商务 和 社交 媒体 的 指数 增长 导致 需要 可 扩展 、 低 成 本 、 灵 活性 和 高 可 用 性 的 数 
据 管理 系统 。 在 某 些 情况 下 ， 使 用 天 系数 据 库 实 现 这 些 目标 中 的 一 些 是 可 能 的 ， 但 通常 很 困难 目 成 本 很 高 。 


NoSQLl 数据库 的 创建 用 来 解决 关系 数据 库 管 理 系统 的 限制 。NoSQL 数 据 库 不 可 能 以 RDBMS 取 代 平 面 文件 、 分 层 和 网 络 数 
据 库 的 方式 取代 关系 数据 库 。 这 两 者 互 为 补充 ， 并 适应 彼此 的 功能 ， 因 为 它们 都 将 继续 应 用 于 日 益 复 杂 和 苛刻 的 应 用 程序 。 


[1 如 果 你 有 兴趣 了 解 更 多 SQL 的 知识 ， 请 参阅 John L . Viescas 和 Michael J. Hernander 的 《SQL Query Queties for Mere Mortals》 


(Adddison-Wesley, 2007) 。 


2.4 MongoDB 


如 果 使 用 数据 库 的 过 程 变 得 足够 简单 ， 以 至 于 我 们 忘记 正在 使 用 它 ; 如 果 无 需 对 数据 库 进 行 复杂 烦琐 的 配置 就 能 得 到 期 待 能 
处 理 速度 和 可 扩展 性 ; 如 果 只 需 专注 于 手头 的 任务 ， 完 成 它 ， 然 后 准时 下 班 。 这 些 听 起 来 似乎 是 梦想 ， 但 MongoDB 可 以 助 你 实 
现 这 些 目标 (和 更 多 ) 。 


MongoDB (派生 自 humongous 这 个 词 ) 是 一 个 相对 新 生 概念 的 数据 库 ， 它 没有 表 、 表 结构 、SQL 或 行 的 概念 ， 它 也 没有 
事务 、ACID 合 规 性 、 联 接 、 外 键 或 许多 其 他 让 人 头痛 的 特性 。 总 之 ，MongoDB 与 其 他 你 可 能 比较 熟悉 的 数据 库 明 显 不 一 样 ， 
特别 是 如 果 你 过 去 使 用 的 是 关系 型 数据 库 (RDBMS) 。 事 实 上 ， 我 们 可 能 会 感到 困惑 ， 因 为 它 缺 乏 所 谓 的 数据 库 “ 标 准 ” 特 
征 。 


但 是 不 用 担心 ， 因 为 接 下 来 我 们 将 介绍 MongoDB 开 发 的 背景 和 指导 原则 ， 以 及 为 什么 MongoDB 开 发 团队 做 出 了 这 样 的 设 
计 选 择 。 我 们 还 将 对 MongoDB 的 功能 特性 进行 多 角度 介绍 ， 并 提供 足够 详细 的 信息 。 


首先 ， 我 们 介绍 创造 MongoDB 的 背后 哲学 和 思想 ， 以 及 一 些 有 趣 的 和 有 争议 的 设计 决定 。 然 后 探讨 面向 文档 的 数据 库 的 概 
念 ， 还 有 如 何 将 它们 组 织 在 一 起 ， 以 及 它们 所 具有 的 优势 和 劣势 。 之 后 探讨 JSON 数 据 格式 并 阐述 如 何 将 它 应 用 于 MongoDB。 
最 后 ， 我 们 还 会 介绍 MongoDB 的 一 些 显著 特性 。 


1.MongoDB 的 哲学 


与 所 有 其 他 项 目 一 样 ，MongoDB 具 有 一 套 设计 哲学 ， 我 们 用 它 来 指导 产品 的 开发 。 在 本 节 中 ， 我 们 将 回顾 数据 库 的 一 些 基 
本 设计 原则 。 


(1) 选择 适合 的 工具 达到 目标 


MongoDB 最 重要 的 哲学 是 不 以 一 概 全 。 多 年 以 来 ， 传 统 的 关系 型 (SQL) 数据 库 (MongoDB 是 一 个 面向 文档 的 数据 库 ) 
已 经 被 用 于 存储 任何 类 型 的 内 容 。 无 论 数据 是 否 适 用 于 关系 模型 ( 它 适 用 于 所 有 关系 型 数据 库 ， 如 MySQL、PostgresSQL、 
SQLite、Oracle、MSSQL Server 等 ) ， 都 会 使 用 关系 型 数据 库 进行 存储 ， 主 要 原因 是 读 写 数 据 库 比 读 写 文 件 系统 更 容易 ， 也 更 
安全 。 如 果 拿 起 任何 关于 PHP 的 教程 ， 例 如 Jason Lengstorf 编 写 的 《PHP for Absolute Beginners》 (Apress，2009) ， 可 能 


会 立即 发 现 这 样 的 指导 原则 : 要 使 用 数据 库 来 存储 信息 ， 而 不 是 使 用 文件 系统 。 因 为 这 样 做 事 很 简单 。 而 当 使 用 数据 库存 储 二 进 
制 数据 时 ， 开 发 人 员 总 是 不 得 不 对 数据 流 进 行 处 理 。 尤 其 是 我 们 不 按 数据 库 的 预期 方式 使 用 数据 库 时 ， 会 经 常 面 临 各 种 各 样 的 情 
况 ; 当 我 们 试图 存储 相对 复杂 的 数据 结构 时 ， 比 如 有 时 不 得 不 设置 五 个 表 ， 然 后 再 把 它们 汇聚 起 来 才能 够 知道 我 们 在 描述 什么 ! 


基于 以 上 原因 ，MongoDB 团 队 决定 不 去 创建 一 个 能 适合 任何 应 用 场景 的 数据 库 ， 相 反 ， 团 队 希望 创建 一 个 适用 于 文档 结构 
而 不 是 基于 行 的 数据 库 ， 这 种 数据 库 具 有 快速 、 规 模 化 扩展 和 易于 使 用 的 特点 。 为 了 达到 这 样 的 目标 ， 团 队 不 得 不 舍弃 一 些 功 
能 ， 这 也 意味 着 MongoDB 不 适用 于 某 些 特定 应 用 场景 。 例 如 ， 它 缺乏 对 事务 的 支持 ， 意 味 着 MongoDB 不 会 用 于 编写 计 费 应 用 
程序 。 也 就 是 说 ，MongoDB 会 是 前 文中 描述 的 应 用 场景 (比如 存储 复杂 结构 数据 ) 的 绝 佳 选择 。 同 时 ， 这 不 会 成 为 两 种 类 型 关 
据 库 之 间 的 冲突 ， 因 为 我 们 可 以 同时 使 用 基于 传统 RDBMS 的 计 费 组 件 和 基于 文档 存储 的 MongoDB。 这 种 混合 解决 方案 在 生产 
型 应 用 中 很 常见 ， 比 如 “纽约 时 报 ” 网 站 应 用 。 


当 能 够 接受 MongoDB 可 能 无 法 解决 所 有 问题 的 想法 之 后 ， 我 们 会 发 现 MongoDB 特 别 适 合 解决 某 些 特 定 场景 的 问题 ， 比 如 
数据 分 析 (就 像 对 你 的 网 站 进行 实时 Google Analytics 一 样 ) 和 复杂 数据 结构 〈( 例 如， 博客 帖 子 和 评论 ) 。 如 果 我 们 仍然 不 确信 
MongoDB 是 一 个 很 棒 的 数据 库 工具 ， 请 直接 跳 到 “功能 列表 ”章节 ， 就 会 对 其 中 MongoDB 的 功能 描述 产生 深刻 的 印象 。 
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了 注意 
缺少 对 事务 的 支持 和 其 他 传统 数据 库 功 能 并 不 意味 着 MongoDB 不 具备 稳定 性 或 不 能 用 于 管理 重要 数据 。 


在 MongoDB 设 计 背 后 的 男 一 个 关键 概念 是 数据 库 应 该 有 多 个 数据 库 副 本 。 如 果 单个 数据 库 节 点 发 生 故 障 ， 那 么 它 应 该 能 够 
简单 地 从 其 他 数据 库 副 本 进行 恢复 。 因 为 MongoDB 旨 在 以 最 快速 度 进行 数据 读 写 ， 所 以 需要 采用 一 些 快捷 方式 ， 但 这 也 导致 其 
更 难 从 崩溃 中 恢复 。MongoDB 开 发 人 员 认 为 最 严重 的 崩 演 是 整个 计算 机 无 法 使 用 ， 这 意味 着 即使 数据 库 被 完全 恢复 ， 它 仍然 不 
可 用 。 记 住 : MongoDB 不 试图 成 为 每 个 人 解决 一 切 问题 的 方法 ， 但 是 对 于 许多 场景 (例如 构建 Web 应 用 ) ，MongoDB 会 是 一 
个 实现 解决 方案 的 绝 佳 工具 。 


以 上 便 是 MongoDB 的 设计 初衷。 我 们 很 清楚 它 不 是 适用 于 任何 场景 的 ， 因 此 它 不 想 成 为 解决 一 切 问 题 的 最 好 方案 。 然 而 ， 
对 于 那些 选择 使 用 它 的 人 ，MongoDB 提 供 了 一 个 针对 读 写 速度 和 可 扩展 性 进行 优化 的 、 具 备 丰富 功能 的 面向 文档 的 数据 库 。 它 
支持 几乎 所 有 操作 系统 ， 包 括 Linux、Mac OS、Windows 和 Solaris， 在 MongoDB 网 站 上 ， 可 以 找到 以 上 各 个 版 本 的 下 载 链 
接 。 

MongoDB 实 现 了 上 述 所 有 目标 ， 这 也 是 为 什么 MongoDB 是 一 个 梦幻 般 的 工具 的 原因 (至 少 对 我 们 来 说 ) 。 不 必 考 虑 如 何 
将 数据 压缩 到 表 中 ， 只 需 将 数据 放 在 一 起 ， 然 后 交 给 MongoDB 进 行 处 理 。 比 如 最 近 发 生 的 一 个 真实 案例 ， 一 个 应 用 程序 的 共同 
作者 Peter Membrey 需 要 存储 一 组 eBay 搜 索 结果 ， 这 个 搜索 结果 的 数量 可 能 是 任意 数值 (最 大 100 个 ) ， 他 需要 一 个 简单 的 方 
法 将 结果 与 数据 库 中 的 用 户 进行 关联 。 


如 果 Peter 使 用 了 MySQL， 就 需要 设计 一 个 表 来 存储 这 些 数据 ， 编 写 代 码 来 存储 结果 ， 然 后 写 更 多 的 代码 将 结果 重新 组 合 在 
一 起 。 这 是 一 个 相当 普遍 的 场景 ， 大 多 数 开 发 人 员 经 常会 面临 这 种 情况 。 通 常 ， 大 家 也 都 是 这 样 进行 处 理 的 。 然 而 ， 在 这 个 项 目 
中 ，Peter 使 用 了 MongoDB， 所 以 事情 有 点 不 同 。 


具体 来 说 ， 他 添加 了 这 行 代码 : 


request['ebay results'] = ebay results array 
collection.save (request) 


在 这 个 例子 中 ，request? 是 Peter 的 文档 ，ebay results 是 键 ，ebay _result array 中 包含 了 在 eBay 上 进行 搜索 的 结果 ， 第 
二 行 是 将 搜索 结果 以 文档 形式 进行 保存 。 当 他 以 后 使 用 这 个 文档 时 ，eBay 的 搜索 结果 保持 了 原始 的 格式 。 他 不 需要 使 用 任何 


SQL， 不 需要 进行 任何 转换 ， 也 不 需要 创建 任何 新 表 或 写 任何 处 理 逻 辑 的 代码 一 一 使 用 MongoDB 即 可 。 一 切 搞定 ，Peter 可 以 
早点 完成 工作 ， 按 时 回 家 。 


(2) 不 支持 事务 


这 是 MongoDB 开 发 人 员 另 一 个 重要 的 设计 决定 : 数据 库 不 包括 事务 语义 ( 它 用 于 保证 数据 存储 的 一 致 性 ) 。 这 是 对 
MongoDB 具 备 简单 、 快 速 和 可 扩展 性 等 特征 的 权衡 。 通 过 把 这 些 重量 级 的 功能 排除 在 外 ， 水 平 扩展 变 得 很 容易 。 


通常 在 使 用 传统 关系 型 数据 库 时 ， 只 能 通过 购买 一 个 更 强大 的 主机 来 提高 性 能 。 这 属于 垂直 扩展 的 范畴 ， 我 们 所 能 做 的 也 只 
有 这 样 。 而 对 于 水 平 扩展 ， 不 需要 有 一 个 强大 的 主机 ， 只 需要 有 很 多 小 的 主机 即 可 。 历 史 经 验 告诉 我 们 ， 这 样 的 服务 器 集群 非常 
适合 用 于 网 站 实现 负载 均衡 ， 但 由 于 数据 库 的 内 部 设计 缺陷 ， 数 据 库 经 常 成 为 瓶 英 ， 这 一 直 是 数据 库 面临 的 问题 。 


有 人 可 能 认为 不 支持 事务 这 个 缺陷 会 产生 重大 影响 。 然 而 ， 不 要 忘记 MySQL 的 存储 引 警 之 一 (MYISAM ， 也 恰巧 是 默认 引 
擎 ) 也 不 支持 事务 ， 但 这 个 事实 并 没有 阻止 MySQL 成 为 多 年 以 来 主流 的 开源 数据 库 。 正 如 针对 解决 方案 进行 开发 选 型 时 的 大 多 
数 选择 一 样 ， 使 用 MongoDB 只 是 个 人 喜好 和 权衡 项 目的 适用 性 问题 。 
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在 进行 生产 环境 部 署 时 ，MongoDB 建 议 的 最 小 配置 是 使 用 三 台 服 务 器 组 成 主 从 集群 来 保证 数据 的 持久 性 。 在 主 从 集群 环境 
下 ， 主 结 点 会 等 待 一 个 或 多 个 从 结 点 确认 接收 数据 后 ， 再 进行 接收 数据 的 确认 。 


(3) JSON 与 MongoDB 


JSON (Java Script Object Notation) 不 仪 是 一 种 数据 交换 的 好 方法 ， 也 是 一 个 存储 数据 的 很 好 方式 。 关 系 型 数据 库 是 高 
度 结构 化 的 ， 它 将 数据 存储 到 多 个 文件 ( 表 ) 中 ; 而 MongoDB 愉 怡 相反 ， 它 将 所 有 数据 存储 在 一 个 文档 中 。 在 这 一 点 
上 ，MongoDB 很 像 /SON， 这 种 模式 提供 了 丰富 的 和 极 具 表达 性 的 数据 存储 方式 。 此 外 ，JSON 能 够 有 效 地 描述 给 定 文档 中 的 所 
有 了 内容， 因此 不 需要 预先 指定 文档 的 数据 结构 。JSON 实 际 上 是 非 结构 化 的 (也 就 是 说 ， 它 不 需要 预先 定义 结构 ) ， 因 为 文档 可 
以 单独 更 新 或 独立 于 任何 其 他 文档 进行 更 改 。 还 有 一 个 好 处 是 ，JSON 通 过 将 所 有 相关 数据 保存 在 同一 个 地 方 ， 还 可 以 提供 优秀 
的 处 理性 能 。 


MongoDB 实 际 上 不 会 直接 使 用 JSON 格 式 来 存储 数据 ， 而 是 使 用 MongoDB 团 队 开发 的 称 为 BSON (发 音 为 Bee-Son， 这 
是 二 进 制 /SON 的 简称 ) 的 开放 数据 格式 进行 数据 存储。 大 多 数 情况 下 ， 使 用 BSON (而 不 是 JSON) 不 会 改变 我 们 使 用 数据 的 方 
式 。 通 过 使 用 BSON， 计 算 机 能 够 更 容易 地 处 理 和 搜索 文档 ， 这 使 MongoDB 更 快 。 BSON 还 增加 了 一 些 在 标准 JSON 中 不 支持 
的 功能 ， 包 括 处 理 二 进 制 数据 的 能 力 。 我 们 会 在 后 续 部 分 更 深入 地 讨论 BSON。 


JSON 的 原始 规范 可 以 在 RFC 4627 中 找到 ， 它 由 Douglas Crockford 编 写 。JSON 人 允许 以 简单 的 、 人 类 可 读 的 文本 格式 表示 
复杂 的 数据 结构 ， 它 通常 比 XML 更 容易 阅读 和 理解 。 像 XML 一 样 ，JSON 用 于 在 Web 客 户 端 (例如 浏览 器 ) 和 Web 应 用 程序 之 
间 交 换 数据 。 如 果 结 合 丰富 的 方式 ，JSON 可 以 描述 对 象 ， 这 样 的 简单 性 使 它 成 为 大 多 数 开 发 人 员 的 首选 数据 交换 格式 。 


你 可 能 想 知道 复杂 的 数据 结构 在 这 里 是 什么 意思 。 以 前 ， 数 据 使 用 逗号 分 隔 值 (CSV) 格式 进行 交换 (这 种 方法 今天 仍然 很 
常见 ) 。CSV 是 一 种 简单 的 文本 格式 ， 它 使 用 换行 符 进 行 行 分 隔 ， 使 用 逗号 进行 字段 分 隔 。 例 如 ，CSV 文 件 可 能 如 下 所 示 : 


Membrey, Peter, +852 1234 5678 
Thielen, Wouter, +81 1234 5678 


人 们 可 以 查看 这 些 信息 ， 并 能 够 很 快 了 解 它 要 表达 的 意思 。 也 或 许 不 是 一 一 第 三 列 是 电话 号 码 还 是 传真 号 码 ? 它 也 可 是 寻 
呼 机 的 号 码 。 为 了 避免 这 种 模糊 性 ，CSV 文 件 通常 使 用 第 一 行 作为 标题 字段 ， 它 用 于 描述 文件 中 对 应 列 的 意义 。 以 下 是 经 过 进 一 





步 优化 的 代码 段 : 


Lastname, Firstname, Phone Number 
Membrey, Peter, +852 1234 5678 
Thielen, Wouter, +81 1234 5678 


经 过 上 述 改进 后 ， 情 况 似 乎 有 了 改观 。 现 在 假设 CSV 文 件 中 的 某 些 人 有 多 个 电话 号 码 的 场景 。 我 们 可 以 为 办 公 室 电话 号 码 添 
加 其 他 字段 ， 但 如 果 想 要 支持 多 个 办 公 室 电话 号 码 ， 那 么 会 面临 一 系列 新 的 问题 。 如 果 还 想 要 合并 多 个 电子 邮件 地 址 ， 那 还 需要 
面临 另外 一 组 问题 。 因 为 大 多 数 人 通常 有 不 止 一 个 地 址 ， 这 些 地 址 不 能 被 明确 地 定义 为 家 庭 地址 或 工作 地 址 。 在 以 上 这 些 前 提 
下 ，CSV 的 局 限 性 就 变 得 明显 了 。CSV 文 件 仅 适 用 于 存储 平面 且 没 有 重复 值 的 数据 。 类 似 地 ， 通 过 提供 几 个 CSV 文 件 ， 将 每 个 文 
件 存 储 不 同 的 信息 单元 ， 然 后 将 这 些 文件 进 行 组 合 (通常 在 关系 型 数据 库 中 ) 以 复原 全 部 数据 ， 这 样 的 使 用 场景 也 不 常见 。 作 为 
示例 ， 大 型 零售 公司 会 在 每 天 结束 时 从 其 每 个 店面 以 CSV 文 件 形式 接收 销售 数据 ， 必 须 合并 文件 才能 看 到 该 公司 在 某 一 天 的 销售 
状况 。 这 个 处 理 过 程 不 是 很 直观 ， 并 且 随 着 文件 数量 的 增长 ， 错 误 的 概率 会 进一步 增加 。 


XML 很 大 程度 上 解决 了 这 个 问题 ， 但 在 使 用 XML 时 ， 大 多 场景 下 感觉 有 点 大 材 小 用 : 它 能 够 满足 要 求 ， 但 感觉 比较 重度 。 
主要 原因 是 XML 支持 高 度 可 扩展 。XML 定 义 了 数据 的 语义 ， 而 不 是 定义 数据 的 格式 。 当 需要 交换 复杂 且 高 度 结构 化 的 数据 时 ， 
它 可 能 很 适用 ;然而 对 于 简单 的 数据 交换 ， 它 经 常会 带 来 太 多 的 额外 工作 量 。 这 种 情况 也 是 大 家 耳熟能详 的 词汇 “XML 地 
狱 ” 的 缘由 。 


JSON 提 供 了 一 种 简洁 明了 的 数据 格式 。 与 CSV 不 同 ， 它 可 以 存储 结构 化 数据 ; 也 与 XML 不 同 ， 它 让 数据 易于 理解 和 使 用 。 
这 次 我 们 使 用 JSON 蔡 代 CSV 来 重 温 前 面 的 例子 : 


{ 

"firstname": "Peter", 

"lastname": "Membrey", 
"phone numbers": |[ 

"+852 1234 5678", 
"+44 1234 565 555" 

] 





} 


在 示例 中 ， 每 个 JSON 对 象 ( 或 文档 ) 包含 了 所 有 需要 理解 的 信息 。phone_numbers 字 段 是 一 个 包含 了 不 同 号 码 的 列表 。 
在 列表 中 ， 可 以 存储 更 多 的 号 码 。 我 们 还 可 以 更 具体 地 定义 记录 的 号 码 的 类 型 ， 如 下 例 所 示 : 


{ 


"firstname": "Peter", 
"lastname": "Membrey", 
"numbers": [ 


{ 


}, 
{ 


} 


"phone": "+852 1234 5678" 


"fax": "+44 1234 565 555" 


可 以 友 现 ， 在 这 个 例子 中 做 了 一 些 改进 。 现 在 可 以 清楚 地 看 到 每 个 号 码 是 什么 意义 。 即 便 JSON 数 据 可 以 很 方便 地 通过 手工 
进行 编写 (但 它 通 常 是 通过 软件 生成 的 ) ， 但 它 极 具 表 达 力 。Python 中 就 有 一 个 叫做 json 的 模块 ， 它 能 够 将 Python 对 象 转换 为 
JSON 格 式 。 因 为 许多 平台 上 都 支持 和 使 用 JSON 格 式 ， 所 以 它 是 交换 数据 的 理想 选择 。 


当 添 加 条 目 (如 电话 号 码 ) 时 ， 实 际 上 就 是 创建 嵌入 式 文档 的 过 程 。 添 加 任何 复杂 内 容 (比如 列表 或 数组 ) 都 是 如 此 。 当 
然 ， 其 中 也 有 逻辑 上 的 区 别 。 例 如 ，Person 文 档 中 可 以 嵌入 多 个 Address 文 档 ; 类 似 地 ，Invoice 文 档 中 可 以 嵌入 许多 Lineltem 
文档 ; 同 理 ，Address 文 档 中 也 可 以 宜 入 其 他 文档 ， 比 如 电话 号 码 。 


嵌入 哪 种 类 型 的 文档 由 需要 存储 的 信息 来 决定 ， 这 通常 被 称 为 结构 设计 。 有 人 可 能 觉得 很 奇怪 ， 为 什么 MongoDB 属 于 非 结 
构 化 数据 库 而 我 们 引用 结构 设计 这 个 概念 ? 因为 虽然 MongoDB 不 强制 预先 创建 数据 结构 ， 但 我 们 仍然 需要 考虑 数据 是 如 何 组 织 
在 一 起 的 。 


(4) 采用 非 关系 的 方式 


提高 关系 型 数据 库 的 性 能 通常 很 直接 : 购买 一 个 更 强大 、 处 理 速度 更 快 的 服务 器 。 在 能 够 买 到 满足 性 能 要 求 的 服务 器 的 前 提 
下 ， 这 个 方法 一 直 很 有 效 。 但 当 无 法 买 到 时 ， 唯 一 的 选择 就 是 扩展 到 两 个 服务 器 。 这 听 起 来 很 容易 ， 但 对 于 大 多 数 数 据 库 来 说 ， 
这 却 是 一 个 很 难 解决 的 问题 。 例 如 ，MySQL 和 PostgresSQL 都 不 支持 在 两 个 服务 器 上 运行 同一 个 数据 库 ， 也 可 以 理解 为 同时 从 
两 个 服务 器 读 取 和 写 入 数据 (通常 称 为 双 主 集群 ) 。 虽 然 Oracle 可 以 通过 Real Application Clusters (RAC) 架构 来 实现 这 一 
点 ,但 成 本 甚 高 一 一 实现 基于 RAC 的 解决 方案 需要 多 人 台 服务 器 、 共 享 存储 和 购买 多 个 软件 许可 。 


为 什么 在 两 台 服 务 器 上 实现 数据 库 的 双 主 集群 是 如 此 困难 ? 当 进 行 数据 库 查 询 时 ， 数 据 库 必须 查找 所 有 相关 数据 并 将 结果 天 
联 在 一 起 。 关 系 型 数据 库 具 有 许多 独创 的 方法 来 提高 性 能 ， 但 它们 都 依赖 于 获得 可 用 数据 的 完整 视图 。 这 就 是 问题 所 在 : 如 果 一 
半 的 数据 存储 在 男 一 台 服 务 器 上 ， 这 个 方法 根本 行 不 通 。 


当然 ， 如 果 只 有 一 个 小 型 数据 库 ， 但 是 会 收 到 大 量 的 请 求 ， 那 么 就 需要 支持 负载 分 担 。 但 是 又 会 面临 男 一 个 问题 : 需要 确保 
写 入 第 一 个 服务 器 的 数据 在 第 二 个 服务 器 上 也 可 用 。 如 果 同 时 在 两 个 单独 的 主机 上 进行 更 新 ， 还 会 遇 到 其 他 问题 。 比 如 ， 需 要 确 
定 哪 个 更 新 是 正确 的 更 新 ; 某 次 请 求 可 能 查询 第 二 个 服务 器 上 刚刚 写 入 第 一 个 服务 器 的 信息 ， 但 该 信息 还 没有 在 第 二 个 服务 器 上 
进行 更 新 。 当 我 们 考虑 所 有 这 些 问题 时 ， 就 会 很 容易 看 出 为 什么 Oracle 解 决 方案 如 此 昂贵 一 一 因为 这 些 问 题 是 非常 难以 解决 
的 。 





MongoDB 以 非常 聪明 的 方式 支持 双 主 集群 ， 完 全 规避 了 上 述 可 能 出 现 的 问题 。 回 想 一 下 ，MongoDB 是 将 数据 存储 在 
BSON 文 档 中 的 ， 因 此 数据 是 自 包含 的 ， 也 就 是 说 ， 尽 管 类 似 的 文档 被 存储 在 一 起 ， 但 是 单个 文档 间 是 没有 关系 的 ， 这 就 意味 着 
需要 把 所 有 数据 都 存储 在 同一 个 位 置 。MongoDB 在 文档 中 查询 特定 的 键 和 值 ， 而 这 些 文档 可 以 轻松 地 分 布 在 可 用 的 许多 服务 器 
上 。 然 后 每 个 服务 器 检查 其 拥有 的 内 容 并 返回 结果 。 这 一 点 也 有 效 地 实现 了 几乎 线性 的 扩展 性 和 性 能 ， 又 省 钱 了 ! 


不 可 否认 ，MongoDB 不 支持 双 主 复制 ， 所 以 它 无 法 支持 两 个 服务 器 同时 接受 写 请 求 。 但 是 ， 它 具有 分 片 机 制 ， 人 允许 数据 在 
多 个 机 器 上 分 布 ， 每 个 机 器 负责 更 新 数据 集 的 不 同 部 分 。 虽 然 一 些 方案 支持 两 个 主 数据 库 ， 但 MongoDB 设 计 的 好 处 是 ， 可 以 随 
时 扩展 到 数 百 台 机 器 。 


(5) 性 能 和 功能 的 抉择 


性 能 很 重要 ， 但 MongoDB 还 提供 了 一 组 丰富 的 功能 集 。 我 们 已 经 讨论 了 MongoDB 没 有 实现 的 一 些 功 能 ， 所 以 你 可 能 有 些 
置疑 MongoDB 是 通过 删 减 数据 库 通 用 功能 来 实现 高 性 能 的 。 然 而 ， 也 有 其 他 处 理 速 度 很 快 的 类 似 数据 库 系统 ， 它 们 支持 的 功能 
也 很 有 限 ， 比 如 实现 键 值 存储 的 那些 数据 库 。 


memcached 就 是 一 个 很 好 的 例子 ， 它 的 主要 目的 是 提供 高 速 数据 缓存 ， 所 以 它 的 处 理 速 度 极 快 。 当 用 于 缓存 网 站 内 容 时 ， 
可 以 将 处 理 速度 提高 几 倍 ， 像 一 些 规模 较 大 的 网 站 ， 如 Facebook 和 LiveJournal 都 在 使 用 它 。 


但 它 也 有 两 个 明显 的 缺陷 。 首 先 ， 它 只 是 一 个 内 存 数据 库 ， 如 果 电源 断 开 ， 所 有 数据 都 会 丢失 ; 其 次 ， 不 能 在 memcached 
中 搜索 数据 ， 只 能 查询 缓存 的 数据 。 


这 些 缺 陷 让 人 感觉 它 具 有 严重 的 局 限 性 。 但 是 ， 我 们 必须 记 住 memcached 旨 在 解决 的 问题 。 首 先 ，memcached 是 一 个 数 
据 缓存 ， 也 就 是 说 ， 它 不 应 该 是 一 个 永久 的 数据 存储 ， 而 是 为 现 有 的 数据 库 提 供 一 个 缓存 层 。 当 构建 动态 网 页 时 ， 通 常会 请 求 非 
常 特定 的 数据 (例如 当前 排名 前 十 的 文章 ) 。 这 就 意味 着 可 以 专门 向 memcached 请 求 缓存 的 数据 ， 而 无 须 执行 数据 库 搜索 。 如 


果 缓 存 已 过 期 或 为 空 ， 则 可 以 正常 查询 数据 库 进 行 数据 构建 ， 然 后 将 其 存储 在 memcached 中 以 备 将 来 使 用 。 


一 旦 接受 这 些 局 限 性 ， 我 们 看 到 memcached 可 以 通过 实现 非常 有 限 的 功能 集 提供 卓越 的 性 能 ， 而 这 种 性 能 是 传统 数据 库 无 
法 比拟 的 。 当 然 ，memcached 不 能 也 不 应 该 用 来 取代 关系 型 数据 库 。 


与 nemcached 相 比 ，MongoDB 本 身 功 能 丰富 。 为 了 更 有 价值 ，MongoDB 必 须要 提供 一 组 强大 的 功能 ， 例 如 搜索 特定 文 
档 的 能 力 。 它 还 必须 能 够 将 这 些 文档 存储 在 磁盘 上 ， 以 便 在 重启 后 重新 进行 数据 加 载 。 幸 运 的 是 ， 正 是 因为 MongoDB 提 供 了 足 
够 丰富 的 功能 ， 才 得 到 大 多 数 Web 应 用 和 许多 其 他 类 型 的 应 用 的 强 有 力 的 支持 。 


像 memcached 一 样 ，MongoDB 不 是 一 个 适用 于 任何 场景 的 数据 库 。 正 如 计算 处 理 能 力 一 样 ， 有 时 必须 进行 折 中 以 实现 应 
用 的 预期 目标 。 


(6) 支持 多 种 操作 系统 平台 


MongoDB 是 用 C++ 编写 的 ， 这 使 得 它 相 对 容易 地 在 任何 系统 上 进行 移植 和 运行 。 目 前 ， 可 以 从 MongoDB 网 站 上 下 载 
Linux、Mac OS、Windows 和 Solaris 版 本 的 安装 包 ， 当 然 ， 也 有 支持 Fedora 和 CentOS 等 平台 的 各 种 官方 版 本 。 虽 然 我 们 建议 
尽 可 能 使 用 官方 提供 的 安装 包 ， 大 家 也 可 以 自行 下 载 源 代码 编译 自己 的 MongoDB 版 本 。 所 有 安装 包 都 有 32 位 和 64 位 版 本 。 


十 注意 

因为 MongoDB 在 内 部 使 用 内 存 映 射 文件 来 实现 高 性 能 ， 所 以 32 位 版 本 的 MongoDB 仅 支持 小 于 或 等 于 2GB 的 数据 库容 量 。 在 
32 位 系统 上 使 用 任何 大 于 2GB 的 数据 都 需要 一 些 特殊 的 策略 ， 这 会 导致 处 理 速 度 变 慢 ， 也 会 使 应 用 程序 代码 的 编写 更 加 复杂 。 和 针 
对 这 种 限制 ， 官 方 建议 使 用 64 位 环境 。 因 为 增加 代码 复杂 性 不 是 一 个 好 的 选择 ， 而 64 位 版 本 没有 这 样 的 限制 。 


MongoDB 可 以 在 大 功率 服务 器 或 虚拟 机 上 运行 ， 甚 至 可 以 为 云 应 用 提供 动力 。 通 过 保持 简单 并 专注 于 速度 和 效率 ， 无 论 在 
哪儿 部 署 它 ， 都 可 以 为 你 提供 坚实 的 性 能 保障 。 


2 .海纳百川 


在 讲述 MongoDB 的 功能 列表 之 前 ， 我 们 需要 回顾 一 些 基本 术语 。 在 使 用 MongoDB 之 前 ， 不 需要 了 解 太 多 的 专业 知识 ， 
为 许多 在 MongoDB 中 使 用 的 术语 可 以 映射 到 我 们 可 能 已 经 熟悉 的 关系 型 数据 库 领 域 中 的 相关 词汇 。 尽 管 如 此 ， 我 们 还 是 会 全 面 
解释 每 个 术语 ， 所 以 即使 不 熟悉 关系 型 数据 库 领 域 的 相关 词汇 ， 你 仍然 可 以 很 容易 地 了 解 并 掌握 。 


(1) 生成 或 创建 主键 


在 MongoDB 中 ， 文 档 用 于 代表 存储 单元 ， 而 在 关系 型 数据 库 中 ， 这 被 称 为 行 。 然 而 ， 文 档 能 表达 的 数据 形式 远 远 超过 行 ， 
因为 它们 可 以 存储 复杂 的 信息 ， 例 如 列表 、 字 典 ， 甚 至 字典 列表 。 与 固定 行 的 传统 数据 库 相 反 , MongoDB 中 的 文档 可 以 由 任意 
数量 的 键 和 值 组 成 。 本 质 上 ， 主 键 只 是 一 个 标签 ， 它 大 致 等 同 于 关系 型 数据 库 中 的 列 名 。 可 以 使 用 主键 来 引用 文档 中 的 数据 片 


段 oo 


在 关系 型 数据 库 中 ， 可 以 通过 一 定 的 方法 来 标识 唯一 记录 ， 否 则 无 法 对 指定 行 的 数据 进行 引用 。 为 此 ， 需 要 创建 一 个 字段， 
该 字段 包含 唯一 值 ( 称 为 主键 ) 或 一 组 字段 ( 称 为 复合 主键 ) 来 唯一 标识 指定 行 。 


在 这 一 点 上 ，MongoDB 和 关系 型 数据 库 类 似 ， 要 求 每 个 文档 都 有 唯一 的 标识 符 ， 此 标识 符 为 id。 除非 为 此 字段 赋值 ， 否 
则 MongoDB 将 生成 唯一 的 值 。 即 使 在 已 经 发 展 成 熟 的 关系 型 数据 库 的 领域 中 ， 应 该 使 用 数据 库 提 供 的 主键 还 是 自己 生成 主键 依 
然 是 一 个 争论 的 话题 。 最 近 ， 使 用 数据 库 创建 主键 变 得 越 来 越 流行 。 


这 样 做 的 原因 是 ， 人 工 生 成 的 唯一 数字 ， 如 汽车 登记 号 码 ， 经 常 因 为 各 种 原因 会 发 生 改 变 。 例 如 ， 在 2001 年 ， 英 国 实施 的 


新 车 牌 方案 就 与 以 前 的 方案 完全 不 同 。 但 是 MongoDB 可 以 很 好 地 应 对 这 种 变化 ， 只 需 仔细 思考 是 否 使 用 车 牌号 码 作为 主键 。 另 
一 个 相似 的 案例 是 ISBN (国际 标准 图 书 编号 ) 方案 从 10 位 升 至 13 位 。 


以 前 ， 大 多 数 使 用 MongoDB 的 开发 人 员 似 乎 更 喜欢 自己 创建 主键 来 确保 唯一 性 。 而 今天 ， 大 家 似乎 更 愿意 使 用 MongoDB 
创建 的 默认 ID 值 做 为 主键 。 与 使 用 关系 型 数据 库 一 样 ， 主 键 生成 方式 的 选择 主要 取决 于 个 人 喜好 。 我 们 建议 使 用 数据 库 提 供 的 
值 ， 因 为 这 样 可 以 确保 主键 的 唯一 性 。 当 然 ， 也 有 人 更 喜欢 使 用 自己 生成 的 主键 。 


最 终 ， 必 须 决定 哪 种 主键 生成 方式 更 加 适合 。 如 果 你 确信 自己 生成 的 主键 具有 唯一 性 (并 且 会 保持 不 变 ) ， 那 么 可 以 随意 使 
用 它 。 如 果 不 确定 生成 的 主键 具有 唯一 性 或 者 根本 不 想 考 虑 这 一 点 ， 那 么 你 可 以 利用 MongoDB 提 供 的 默认 主键 。 


(2) 使 用 键 和 值 
文档 由 许多 键 值 对 组 成 。 让 我 们 再 回顾 一 下 前 面 讨论 的 例子 : 


{ 
"firstname": "Peter", 
"lastname": "Membrey", 
"Phone numbers": |[ 
"+852 1234 5678", 
"+44 1234 565 555" 
] 





} 


键 和 值 总 是 成 对 出 现 。 这 一 点 与 天 系 型 数据 库 不 同 ， 它 要 求 每 个 字段 必须 有 一 个 值 ， 即 使 它 是 NULL (似乎 有 点 矛盾 ， 这 意 
味 着 未 知 ) ，MongoDB 不 强制 要 求 文 档 一 定 有 一 个 特定 的 值 。 例 如 ， 如 果 不 知 道 列表 中 人 员 的 电话 号 码 ， 我 们 只 需 将 其 删除 即 
可 。 就 像 名 片 一 样 ， 如 果 有 传真 号 码 ， 我 们 会 将 它 放 在 名 片上 ; 如 果 没 有 ， 我 们 不 需要 写 “ 传 真 号码 : 无 ”。 在 MongoDB 文 档 
中 没有 包含 的 键 值 对 ， 则 假定 不 存在 。 


(3) 实现 集合 


集合 有 点 类 似 于 表 ， 但 它 不 像 表 那 么 严格 。 一 个 集合 就 像 一 个 带 有 标签 的 合子。 比如， 一 个 标 有 “DVD” 的 盒子 用 于 存放 
DVD。 做 这 种 标明 是 有 道理 的 ， 但 是 只 要 愿意 ， 我 们 也 可 以 把 CD 甚至 磁带 放 入 这 个 盒子 中 。 在 关系 型 数据 库 中 ， 表 的 定义 具有 
严格 性 ， 所 以 只 能 将 符合 规则 的 条 目 插 入 表 中 。 在 MongoDB 中 ， 集 合 可 以 简单 地 描述 为 : 相似 条 目的 集合 。 不 过 ， 不 相似 的 条 
目 也 可 以 放 入 同一 集合 中 (因为 MongoDB 本 质 上 是 灵活 的 ) ; 但 是 ， 一 旦 开始 查看 索引 和 进行 高 级 查询 时 ， 我 们 很 快 就 会 发 现 
将 相似 条 目 放 在 同一 集合 中 的 好 处 。 


虽然 可 以 在 一 个 集合 中 混合 各 种 条 目 ， 但 是 完全 没有 必要 这 样 做 。 如 果 一 个 集合 被 命名 为 media， 那 么 所 有 的 DVD、CD 和 
磁带 都 可 以 放 到 该 集合 中 ， 因 为 这 些 条 目 具 有 一 些 共 同 点 ， 例 如 艺术 家 姓名 、 发 布 日 期 和 内 容 。 换 名 话说， 是 否 将 某 些 文档 存储 
在 同一 个 集合 中 取决 于 应 用 场景 。 对 于 性 能 ， 拥 有 多 个 集合 不 会 比 只 有 一 个 集合 慢 。 记 住 : MongoDB 主 要 为 了 简化 使 用 方式 ， 
所 以 只 需 选择 最 适合 你 的 方式 即 可 。 


条 
条 


最 后 同样 重要 的 是 ， 集 合 是 按 需 并 有 效 进行 创建 的 。 具 体 来 说 ， 当 首次 尝试 保存 引用 集合 的 文档 时 才 会 进行 集合 的 创建 。 这 
意味 着 我 们 可 以 根据 需要 来 创建 集合 (集合 的 创建 没有 必然 性 ) 。 因 为 MongoDB 还 允许 动态 创建 索引 和 执行 其 他 数据 库 级 别 命 
令 ， 我 们 可 以 利用 此 行为 来 构建 一 些 动 态 的 应 用 。 


(4) 了 解数 据 库 


理解 MongoDB 中 数据 库 概 念 的 最 简单 的 方法 是 它 是 集合 的 集合 。 像 集合 一 样 ， 数 据 库 也 可 以 按 需 创建 。 这 意味 着 可 以 很 容 
易 地 为 每 个 客户 创建 数据 库 一 一 这 个 过 程 也 可 以 通过 应 用 程序 代码 完成 。 也 可 以 用 MongoDB 以 外 的 数据 库 来 做 到 这 一 点 ; 不 同 
的 是 ， 使 用 MongoDB 创 建 数据 库 是 一 个 非常 自然 的 过 程 。 但 是 这 并 不 意味 着 必须 使 用 这 种 方式 进行 创建 ， 我 们 只 是 提供 了 这 种 


3. 功 能 列表 


现在 大 家 应 该 明白 了 MongoDB 是 什么 和 它 提 供 了 什么 ， 所 以 是 时 候 看 一 下 它 的 功能 列表 了 。 可 以 在 MongoDB 网 
站 www.mongodb.org 中 找到 MongoDB 功 能 的 完整 列表 ， 但 请 务必 随时 访问 以 获取 最 新 内 容 。 本 节 中 的 功能 列表 也 涵盖 了 一 
些 后 台 功 能 ,但 是 不 需要 熟悉 MongoDB 的 每 一 个 功能 的 使 用 。 换 句 话说 ， 在 浏览 功能 列表 的 过 程 中 ， 如 果 觉 得 不 需要 关注 ,我 
们 可 以 随时 跳 到 该 节 的 结尾 ! 


(1) 使 用 面向 文档 的 存储 (BSON) 


前 面 已 经 讨论 了 MongoDB 的 面向 文档 的 设计 ， 我 们 也 简要 地 介绍 了 BSON。 正 如 所 了 解 的 ， 通 过 使 用 JSON， 我 们 可 以 很 
便捷 地 将 原始 数据 格式 以 文档 的 形式 进行 存储 和 恢复 ， 有 效 地 消除 对 任何 类 型 的 映射 器 或 特殊 转换 代码 的 依赖 。 事 实 上 ， 这 个 功 
能 也 使 得 MongoDB 更 容易 进行 扩展 。 


BSON 是 一 个 开放 标准 ， 可 以 在 http://bsonspec.org/ 找 到 它 的 规范 。 因 为 BSON 是 JSON 的 二 进 制 形式 ， 所 以 大 家 可 能 会 
觉得 相对 JSON 而 言 ， 它 会 占用 更 少 的 空间 。 然 而 事实 并 非 如 此 ， 在 许多 情况 下 ， 对 于 相同 的 数据 ，BSON 占 用 的 空间 可 能 比 
JSON 更 多 。 


大 家 可 能 想 知道 为 什么 要 使 用 BSON。 毕 竟 ，CouchDB ( 另 一 个 很 棒 的 面向 文档 的 数据 库 ) 直接 使 用 JSON 进 行 数据 存储 。 
所 以 也 一 定 会 想 了 解 在 gSON 和 JSON 之 间 转 换 带 来 的 开销 是 否 值得 。 


首先 ， 必 须 记 住 ，MongoDB 设 计 的 目标 是 速度 ， 而 不 是 空间 效率 ， 但 这 不 意味 着 MongoDB 浪 费 空间 ; 其 次 ，BSON 更 容 
易 遍 历 并 且 索引 非常 快 ， 因 此 可 以 提升 处 理 数据 的 速度 ， 所 以 我 们 完全 可 以 接受 文档 转换 这 种 相对 较 小 的 开销 。 尽 管 BSON 比 
JSON 占 用 更 多 的 磁盘 空间 ， 但 这 不 是 问题 ， 因 为 磁盘 便宜 ，MongoDB 也 支持 水 平 扩展 。 所 以 我 们 的 权衡 如 下 : 通过 一 点 额外 
的 磁盘 空间 来 换取 更 好 的 查询 和 索引 性 能 。 


使 用 BSON 的 第 二 个 主要 好 处 是 ，BSON 可 以 快速 和 便捷 地 转换 为 编程 语言 能 够 识别 的 原生 数据 格式 。 如 果 数 据 存储 在 
JSON 中 ， 可 能 需要 一 定 的 转换 工作 。MongoDB 的 驱动 程序 有 许多 编程 语言 (例如 Python、Ruby、PHP、C、C++ 和 C#) 的 
版 本 ， 每 种 略 有 不 同 。 通 过 使 用 二 进 制 格式 ， 每 种 语言 都 可 以 将 BSON 快 速 编译 成 原生 数据 格式 ， 而 无 须 先进 行 JSON 处 理 。 这 
可 以 使 代码 更 简单 和 高 效 ， 而 这 两 点 都 符合 MongoDB 的 既定 目标 。 


BSON 还 提供 了 一 些 对 JSON 的 扩展 。 例 如 ， 它 能 够 存储 二 进 制 数据 并 合并 特定 的 数据 类 型 。BSON 可 以 兼容 ISON， 反 之 却 
不 一 定 。 但 这 并 不 重要 ， 因 为 每 种 语言 都 有 自己 的 驱动 程序 ， 都 可 以 将 数据 转换 为 BSON 数 据 ， 而 无 须 使 用 SON 作 为 中 间 转 换 
格式 。 


最 后 ，BSON 不 是 使 用 MongoDB 的 一 个 重要 理由 。 像 所 有 伟大 的 工具 一 样 ，MongoDB 只 关注 它 需要 支持 的 功能 。 除 了 使 
用 图 形 工具 来 查看 数据 之 外 ， 您 只 需要 关注 使 用 的 编程 语言 ， 让 驱动 程序 来 保证 将 数据 持久 化 到 MongoDB 即 可 。 


(2) 支持 动态 查询 


MongoDB 支 持 动 态 查询 ， 也 就 是 说 查询 语句 不 需要 预先 准备 好 也 能 够 运行 。 这 类 似 于 使 用 SQL 查 询 关系 型 数据 库 。 你 可 能 
想 知道 为 什么 这 也 算 一 个 功能 ， 因 为 并 不 是 每 个 数据 库 都 支持 这 个 功能 。 


例如 ，CouchDB (通常 被 认为 是 MongoDB 最 大 的 “竞争 对 手 ”) 就 不 支持 动态 查询 ， 这 是 因为 它 提 出 了 一 种 全 新 的 (也 
是 令 人 惊讶 的 ) 数据 思维 方式 。 传 统 的 关系 型 数据 库 支 持 静 态 数据 和 动态 查询 ， 这 意味 着 数据 结构 是 预先 固定 好 的 ， 必 须 先 定义 
表 ， 然 后 每 一 行 数据 必须 符合 表 结 构 的 要 求 。 因 为 数据 库 已 经 知道 数据 是 如 何 结构 化 的 ， 所 以 它 可 以 做 出 某 些 假设 和 优化 来 实现 


快速 动态 查询 。 


针对 这 一 功能 ，CouchDB 提 前 做 了 声明 。 作 为 面向 文档 的 数据 库 ，CouchDB 是 非 结 构 化 的 ， 因 此 数据 是 动态 的 。 所 以 ， 它 
提出 的 观点 是 查询 是 静态 的 。 也 就 是 说 ， 查 询 语句 需要 预先 定义 后 才能 运行 。 


这 其 实 也 没有 那么 糟 ， 因 为 许多 查询 可 以 很 容易 地 进行 预先 定义 。 例 如 ， 图 书 搜索 系统 可 以 允许 使 用 ISBN 搜 索 。 在 
CouchDB 中 ， 只 需要 针对 所 有 文档 创建 一 个 基于 ISBN 列 表 的 索引 ， 当 输入 ISBN 时 ， 它 的 查询 速度 非常 快 ， 因 为 它 实际 上 不 需 
要 搜索 任何 数据 。 当 添加 新 数据 时 ，CouchDB 会 自动 更 新 索引 。 


当然 ， 也 可 以 不 创建 索引 ， 直 接 在 CouchDB 运 行 查询 语句 。 但 在 这 种 情况 下 ，CouchDB 人 在 处 理 查询 语句 之 前 ， 会 自动 创建 
索引 。 如 果 只 有 一 百 本 书 ， 这 不 会 是 一 个 问题 ; 但 是 ， 如 果 有 数 十 万 本 图 书 ， 它 会 导致 性 能 下 降 ， 因 为 每 次 查询 会 重新 生成 索 
引 。 因 此 ，CouchDB 团 队 不 建议 在 生产 环境 中 使 用 动态 查询 ， 即 未 预先 定义 的 查询 。 


CouchDB 还 允许 通过 map/reduce 功 能 实现 查询 。 如 果 在 一 个 优秀 的 公司 工作 ， 那 么 我 们 可 以 花 些 时 间 进 行 学 习 ， 因 为 
CouchDB 不 是 很 容易 掌握 。 一 个 有 经 验 的 程序 员 可 能 很 快 掌握 它 , 但是， 对 于 大 多 数 人 来 说 可 能 没有 那么 简单 ， 所 以 他 们 不 会 
在 工具 上 浪费 时 间 。 


而 幸运 的 是 ，MongoDB 更 容易 使 用 。 我 们 会 在 下 文中 详细 地 介绍 如 何 使 用 MongoDB， 简 而 言 之 : 在 MongoDB 中 ， 只 需 
提供 文档 中 要 匹配 的 部 分 即 可 完成 查询 。MongoDB 能 够 做 到 的 还 有 更 多 ， 如 果 想 使 用 map/reduce 功 能 ， 也 可 以 选择 
MongoDB。 但 是 ， 如 果 只 是 希望 简单 地 使 用 MongoDB， 那 么 不 需要 了 解 前 面 提 到 的 所 有 高 级 功能 。 


(3) 给 文档 创建 索引 


MongoDB 对 在 文档 上 创建 索引 的 功能 提供 了 广泛 的 支持 。 当 需要 处 理 成 干 上 万 个 文档 时 ， 这 个 功能 真 的 很 方便 。 如 果 没 有 
索引 ，MongoDB 必 须 依次 查看 每 个 单独 的 文档 ， 以 确定 它 是 否 是 想 要 查看 的 内 容 。 这 类 似 于 向 图 书 管理 员 要 一 本 书 ， 而 他 需要 
查看 图 书馆 里 每 一 本 书 一 样 。 通 过 使 用 索引 系统 (图 书馆 通常 使 用 杜威 十 进 制 系统 ) ， 他 可 以 先 找到 正在 寻找 的 书 的 区 域 ， 并 很 
快 确定 它 是 否 在 那儿 。 


与 图 书馆 中 的 图 书 不 同 ，MongoDB 中 的 所 有 文档 都 在 idq 键 上 自动 编 入 索引 。 此 键 是 系统 默认 键 ， 所 以 不 能 被 删除 ;而 索 
引用 于 确保 每 个 值 的 唯一 性 。 此 键 用 于 唯一 标识 每 一 个 文档 ， 但 这 在 天 系 型 数据 库 中 是 不 能 得 到 保证 的 。 


当 创建 索引 时 ， 可 以 决定 是 否 希望 它们 强制 唯一 。 如 果 决 定 创建 一 个 唯一 索引 ， 我 们 可 以 告诉 MongoDB 将 所 有 重复 的 值 进 
行 删 除 。 这 或 许 不 是 想 要 的 结果 ， 因 此 在 使 用 此 选项 之 前 ， 我 们 应 该 仔细 考虑 ， 因 为 这 可 能 会 意外 删除 一 半 的 数据 。 默 认 情况 
下 ， 如 果 尝 试 为 具有 重复 值 的 键 创建 唯一 索引 ， 将 返回 错误 。 


在 许多 情况 下 ， 需 要 创建 允许 重复 的 索引 。 例 如 ， 如 果 应 用 程序 按 姓 氏 搜 索 ， 那 么 通常 会 在 姓氏 键 上 构建 索引 ， 但 是 不 能 保 
证 每 个 姓氏 都 是 唯一 的 ， 而 当 数 据 库 达 到 一 定 规 模 ， 一 定 会 出 现 重 复 的 姓氏 。 


然而 ，MongoDB 的 索引 能 力 不 止 于 此 。MongoDB 还 可 以 在 嵌入 文档 上 创建 索引 。 例 如 ， 在 地 址 键 中 存储 了 大 量 地 址 ， 那 
么 可 以 在 邮政 编码 上 创建 索引 ， 这 意味 着 可 以 根据 任何 邮政 编码 找到 对 应 的 文档 ， 而 且 速 度 非常 快 。 


除 此 之 外 ，MongoDB 还 支持 复合 索引 。 在 复合 索引 中 ， 使 用 两 个 或 更 多 个 键 来 构建 索引 。 例 如 ， 可 以 构建 lastname 和 
firstname 的 组 合 索引 ， 这 样 搜 索 全 名 会 非常 快 ， 因 为 MongoDB 可 以 快速 隔离 姓 ， 然 后 快速 隔离 名 字 。 


(4) 利用 地 理 空间 索引 


特别 值得 一 提 的 一 种 索引 形式 是 地 理 空 间 索 引 。 在 MongoDB 1.4 版 本 中 ， 引 入 了 这 种 新 型 的 专业 的 索引 技术 。 可 以 使 用 此 
功能 对 位 置 数据 建立 索引 ， 以 支持 位 置 相关 信息 的 查询 ， 例 如 在 给 定 坐 标的 某 一 区 域 范围 内 有 多 少 参 照 物 。 


随 着 越 来 越 多 的 Web 应 用 开始 使 用 位 置 数 据 ， 该 功能 将 在 日 常 开发 中 发 挥 日 益 突显 的 作用 。 昌 然 地 理 空间 索引 在 当下 仍然 
是 一 个 有 点 小 众 的 功能 ， 但 当 需 要 使 用 它 时 ， 你 会 很 高 兴 MongoDB 已 经 实现 了 这 个 功能 。 


(5) 分 析 查 询 


我 们 可 以 通过 MongoDB 内 置 的 分 析 工 具 了 解 MongoDB 如 何 确定 要 返回 哪些 文档 。 这 是 一 个 非常 有 用 的 功能 ， 因 为 在 多 数 
情况 下 ， 可 以 通过 添加 索引 改进 查询 。 如 果 创建 了 一 个 复杂 的 查询 ， 但 是 不 确定 为 什么 它 运 行 得 这 么 慢 ， 那 么 查询 分 析 器 可 以 提 
供 非 常 有 价值 的 信息 。 


(6) 适时 信息 更 新 


在 数据 库 进 行 行 ( 也 就 是 MongoDB 中 的 文档 ) 更 新 时 ， 有 许多 种 方法 可 供 选 择 。 许 多 数据 库 使 用 多 版 本 并 发 控制 
(MVCC) ， 它 允许 多 个 用 户 查 看 不 同 版 本 的 数据 。 这 种 方法 是 非常 有 用 的 ， 因 为 它 可 以 确保 数据 在 给 定 事务 内 不 会 被 男 一 程 
序 改变 。 

这 种 方法 的 缺点 是 数据 库 需 要 跟踪 数据 的 多 个 副本 。 例 如 ，CouchDB 提 供 了 非常 强大 的 版 本 控制 功能 ， 但 这 是 以 将 数据 完 
整地 写 出 为 代价 的 。 虽 然 这 确保 了 数据 的 鲁 棒 性 ， 但 它 也 增加 了 复杂 性 并 且 降 低 了 性 能 。 


相 比 而 言 ，MongoDB 支 持 适 时 信息 更 新 。 这 意味 着 (与 CouchDB 相 反 ) MongoDB 在 更 新 请 求 发 生 时 随时 更 新 数据 。 所 
以 它 不 需要 分 配额 外 的 空间 ， 并 且 可 以 保持 索引 不 变 。 


这 种 方法 的 另 一 个 好 处 是 MongoDB 具 有 延迟 写 入 的 特性 。 针 对 内 存 的 写 入 和 写 出 是 非常 快 的 ， 但 写 入 磁盘 却 非常 慢 。 所 以 
我 们 会 希望 尽量 避免 磁盘 的 读 取 和 写 入 。 但 这 在 CouchDB 中 是 不 可 能 的 ， 因 为 它 需要 确保 每 个 文档 都 被 快速 写 入 磁盘 。 虽 然 此 
方法 可 以 保证 数据 安全 地 存储 到 磁盘 上 ， 但 它 会 显著 影响 性 能 。 


MongoDB 只 有 在 必须 写 入 磁盘 时 才 会 执行 写 操作 ， 这 通常 是 每 秒 钟 一 次 。 这 也 意味 着 如 果 一 个 值 在 1 秒 钟 内 被 多 次 修改 
(比如 使 用 一 个 值 作为 页 面 计 数 器 或 者 实时 统计 ) ， 那 么 该 值 只 会 被 写 入 磁盘 一 次 ， 而 CouchDB 需 要 成 百 上 干 次 。 


这 种 方法 使 MongoDB 更 快 ， 但 它 也 是 一 个 折 中 。CouchDB 可 能 较 慢 ， 但 它 确保 数据 安全 地 存储 在 磁盘 上 。 而 MongoDB 
没有 这 样 的 保证 ， 这 就 是 为 什么 在 管理 关键 数据 的 场景 如 计 费 或 应 收 账 款 时 ， 传 统 的 关系 型 数据 库 可 能 是 一 个 更 好 的 解决 方案 。 


(7) 存储 二 进 制 数据 


GridFS 是 MongoDB 在 数据 库 中 存储 二 进 制 数据 的 解决 方案 。BSON 支 持 在 文档 中 保存 最 大 4MB 的 二 进 制 数据 ， 这 可 能 足以 
满足 需求 。 例 如 ， 如 果 要 存储 大 头 照 或 声音 剪辑 ， 需 要 的 存储 空间 远 小 于 MB。 如 果 想 存储 影片 部 辑 、 高 质量 的 音频 瘟 辑 ， 甚 
至 是 几 百 兆 字 节 的 文件 时 ，MongoDB 也 可 以 支持 。 


GridFs 通 过 将 文件 的 描述 信息 ( 称 为 元 数据 ) 人 存储 在 files 集 合 中 实现 大 数据 量 人 存储 。 数 据 会 被 拆 分 成 多 个 被 称 为 chunks 的 
块 ， 这 些 块 存储 在 chunks 集 合 中 。 这 种 方法 使 得 存储 数据 变 得 容易 并 具备 可 扩展 性 ， 它 还 使 范围 操作 (例如 检索 文件 的 特定 部 
分 ) 更 加 便捷 。 


一 般 来 说 ， 通 过 编程 语言 版 本 的 MongoDB 驱 动 程序 来 使 用 GridFS， 所 以 不 需要 考虑 实现 的 细节 。 与 MongoDB 的 出 发 点 相 
同 ，GridFs 是 为 速度 和 可 扩展 性 设计 的 。 所 以 ， 如 果 想 使 用 大 数据 文件 ，MongoDB 完 全 可 以 办 到 。 


(8) 复制 数据 


当 讨 论 MongoDB 的 指导 原则 时 ， 我 们 提 到 关系 型 数据 库 为 数据 存储 提供 了 某 种 程度 的 保障 ， 而 这 种 保障 在 MongoDB 中 是 
没有 的 。 接 下 来 将 介绍 无 法 提供 这 种 保障 的 理由 : 第 一 ， 这 些 功能 会 降低 数据 库 的 速度 ; 第 二 ， 它 们 会 大 大 增加 程序 的 复杂 性 ; 


第 三 ， 人 们 认为 服务 器 上 最 常见 的 是 硬件 故障 ， 即 使 数据 被 安全 地 保存 到 磁盘 上 ， 也 会 导致 数据 无 法 使 用 。 


当然 ， 这 些 都 不 意味 着 数据 安全 不 重要 。 如 果 不 指望 能 够 在 需要 时 访问 数据 ，MongoDB 也 不 会 有 太 多 的 用 处 。 最 
初 ， MongoDB 提 供 了 一 个 安全 网 络 ， 它 有 一 个 称 作 主 从 复制 的 功能 ， 在 安全 网 络 中 ， 同 一 时 间 内 只 有 一 个 数据 库 处 于 活动 状 
， 这 种 方法 在 关系 型 数据 库 领 域 也 是 常见 的 。 此 功能 现在 已 被 副本 集 取代 ， 并 且 基 本 的 主 从 复制 已 被 弃 用 。 


诸 


副本 集 具有 一 个 主 服务 器 (类 似 于 主 从 复制 结构 的 主 服务 器 ) ， 它 负责 处 理 来 自 客户 端的 所 有 写 请 求 。 因 为 在 副本 集中 只 有 
一 个 主 服务 器 ， 它 可 以 保证 所 有 写 入 操作 都 被 正确 处 理 。 当 写 入 操作 发 生 时 ， 操 作 会 在 主 服务 器 的 oplog 中 进行 记录 。 


oplog 会 被 所 有 从 服务 器 (可 以 有 许多 ) 复制 ， 用 于 与 主 服务 器 同步 。 如 果 主 节点 发 生 失 败 ， 则 其 中 一 个 从 节点 会 成 为 主 节 
点 ， 并 负责 处 理 客户 端的 写 请 求 。 


(9) 实现 分 片 
对 于 那些 需要 大 规模 部 署 的 用 户 来 说 ， 自 动 分 片 可 能 是 MongoDB 最 重要 和 最 常用 的 功能 之 一 。 


在 自动 分 片 的 情况 下 ，MongoDB 会 处 理 所 有 的 数据 分 割 和 重组 。 它 确保 数据 到 达 正 确 的 服务 器 ， 并 且 以 最 有 效 的 方式 运行 
和 组 合 查询 。 事 实 上 ， 从 开发 人 员 的 角度 来 看 ， 访 问 一 个 具有 一 百 个 分 片 的 MongoDB 数 据 库 和 访问 一 个 独 的 MongoDB 服 务 器 
是 没有 区 别 的 。 此 功能 目前 不 具备 生产 可 用 性 ,一 旦 具备 ， 它 将 会 推动 MongoDB 的 可 扩展 性 到 达 项 峰 。 


在 此 期 间 ， 如 果 刚 刚 开始 或 者 正在 构建 你 的 第 一 个 基于 MongoDB 的 网 站 ， 我 们 可 能 会 发 现 一 个 独立 的 MongoDB 实 例 足以 
满足 需求 。 如 果 最 终 要 建立 下 一 个 Facebook 或 亚马逊 ， 我 们 会 很 高 兴 在 网 站 上 使 用 的 技术 是 具备 无 限 扩展 性 的 。 


(10) 使 用 MapReduce 功 能 


对 许多 人 来 说 ， 听 到 MapReduce 就 会 感觉 很 刺激 。 而 在 男 一 个 极端 ， 许 多 关系 型 数据 库 拥护 者 一 直 在 嘲笑 MapReduce 功 
能 的 复杂 性 。 对 某 些 人 来 说 这 是 可 怕 的 ， 因 为 这 个 功能 需要 使 用 一 种 完全 不 同 的 思维 方式 来 查找 数据 和 对 数据 进行 排序 ， 许 多 专 
业 的 程序 员 很 难 建立 MapReduce 功 能 的 概念 。 也 就 是 说 ， 这 些 功 能 提供 了 一 种 非常 强大 的 查询 数据 的 方法 。 本 质 
上 ，CouchDB 只 支持 这 种 方法 ， 因 此 它 具 有 一 定 的 学 习 难 度 。 


MongoDB 不 要 求 必须 使 用 MapReduce 功 能 。 事 实 上 ，MongoDB 依 赖 于 一 个 简单 的 查询 语法 ， 它 更 类 似 于 在 MySQL 中 看 
到 的 语法 。 然 而 ，MongoDB 为 那些 想 要 使 用 MapReduce 功 能 人 实现 了 这 个 功能 。MapReduce 功 能 是 用 JavaScript 编 写 的 ， 并 
在 服务 器 上 运行 。Map 功 能 用 于 找到 满足 特定 标准 的 所 有 文档 ， 并 将 结果 传递 给 Reduce 功 能 进行 数据 处 理 。Reduce 功 能 通常 
不 会 返回 文档 的 集合 ， 而 是 返回 一 个 包含 结果 信息 的 新 文档 。 根 据 经 验 ， 如 果 经 常 在 SQL 中 使 用 GROUP BY， 那 么 MapReduce 
功能 会 是 使 用 MongoDB 时 最 好 的 工具 。 


dy 、 = 
盖 注 忆 


不 应 该 把 MongoDB 的 MapReduce 功 能 看 作对 CouchDB 的 模仿 。 我 们 完全 可 以 使 用 MongoDB 的 MapReduce 功 能 取代 MongoDB 的 
所 有 原生 查询 功能 。 


(11) MongoDB 聚 合 框架 


MapReduce 是 一 个 非常 强大 的 工具 ， 但 它 有 一 个 主要 的 缺点 : 它 不 是 很 容易 使 用 。 许 多 数据 库 系 统 用 于 报告 ， 对 于 SQL 数 
据 库 ， 这 显得 格外 容易 。 如 果 想 将 结果 聚合 或 找到 最 大 值 和 平均 值 ， 可 以 通过 简单 的 表达 式 得 到 结果 。 而 在 MapReduce 中 ， 它 
没有 这 么 简单 ， 必 须 把 数据 有 效 地 组 织 起 来 才能 得 到 ， 这 样 就 把 简单 任务 复杂 化 了 。 


针对 这 一 点 ，MongoDB Inc (以 前 的 10gen) 增加 了 对 聚合 框架 的 支持 。 它 是 基于 管道 的 ， 类 似 于 Linux shell 中 的 管道 命 


令 ， 人 允许 获取 查询 结果 的 各 个 片段 ， 并 将 它们 串 在 一 起 以 获得 要 查找 的 结果 。 这 个 功能 依然 保持 了 MongoDB 高 性 能 的 优点 。 


所 以 ， 如 果 需 要 MapReduce 的 所 有 了 能力， 我 们 可 以 随时 使 用 它 。 如 果 只 想 做 一 些 基 本 的 统计 和 数字 处 理 ， 可 能 新 的 聚合 杠 
架 更 加 适合 。 


第 6 草 ”大 数据 的 类 型 


数据 可 以 以 不 同 的 形式 存在 。 本 章 介 绍 各 种 数据 形式 和 数据 源 。 多 样 性 是 生活 的 调味 剂 ， 多 样 性 也 是 大 数据 的 基本 原则 之 
一 。 大 数据 包罗 万 象 ， 从 货币 交易 到 微 博 ， 从 图 像 到 音频 。 因 此 ， 要 想 利用 大 数据 ， 首 先 要 对 所 有 的 信息 进行 整合 ， 然 后 才能 进 
行 分 析 和 数据 管理 。 这 项 工作 说 起 来 简单 ， 实 际 执行 起 来 却 有 一 定 难度 。 在 本 章 中 ， 我 们 审视 构成 大 数据 的 两 种 主要 数据 一 一 
结构 化 数据 和 非 结构 化 数据 ， 对 它们 各 自 定 义 并 举例 。 


在 大 数据 领域 ， 尽 管 数 据 管理 渊源 已 久 ， 但 有 两 个 因素 是 新 出 现 的 : 
. 部 分 数据 来 源 是 新 出 现 的 ， 例 如 传感器 、 智 能 手机 、 平 板 电 脑 ( 电子 产品 )。 


* 有 些 数据 是 以 前 产生 的 ， 但 是 并 没有 被 合理 获取 、 储 存 和 分 析 ， 处 于 未 利用 状态 。 产 生 这 种 情况 ， 主 要 是 因为 在 数据 产生 
的 时 代 ， 相 应 的 数据 处 理 技术 并 未 出 现 。 换 身 话说 ， 在 过 去 我 们 没有 性 价 比 合理 的 方法 去 处 理 那 些 数 据 。 


运用 大 数据 来 解决 问题 的 方法 多 种 多 样 。 举 例 说 明 ， 在 某 些 情形 下 ， 如 监控 车 流量 时 ， 你 可 能 倾向 于 对 数据 进行 实时 处 理 。 


然而 ， 在 有 些 情形 下 ， 对 数据 进行 实时 处 理 并 没有 必要 。 比 方 说 ， 为 确定 某 种 未 知 模型 而 批量 分 析 数 据 ， 那 么 在 收集 数据 样本 时 
并 不 需要 及 时 处 理 数据 。 同 样 ， 作 为 大 数据 处 理 方法 的 一 部 分 ， 需 要 整合 多 种 来 源 数据 ， 那 么 此 时 应 明确 整合 数据 来 源 的 目的 。 


第 6 草 ”大 数据 的 类 型 


数据 可 以 以 不 同 的 形式 存在 。 本 章 介绍 各 种 数据 形式 和 数据 源 。 多 样 性 是 生活 的 调味 剂 ， 多 样 性 也 是 大 数据 的 基本 原则 之 
一 。 大 数据 包罗 万 象 ， 从 货币 交易 到 微 博 ， 从 图 像 到 音频 。 因 此 ， 要 想 利用 大 数据 ， 首 先 要 对 所 有 的 信息 进行 整合 ， 然 后 才能 进 
行 分 析 和 数据 管理 。 这 项 工作 说 起 来 简单 ， 实 际 执行 起 来 却 有 一 定 难度 。 在 本 章 中 ， 我 们 审视 构成 大 数据 的 两 种 主要 数据 一 一 
结构 化 数据 和 非 结构 化 数据 ， 对 它们 各 自 定 义 并 举例 。 


在 大 数据 领域 ， 尽 管 数据 管理 渊源 已 久 ， 但 有 两 个 因素 是 新 出 现 的 : 


. 部 分 数据 来 源 是 新 出 现 的 ， 例 如 传感器 、 智 能 手机 、 平 板 电脑 (电子 产品 ) 。 


“ 有 些 数据 是 以 前 产生 的 ， 但 是 并 没有 被 合理 获取 、 储 存 和 分 析 ， 处 于 未 利用 状态 。 产 生 这 种 情况 ， 主 要 是 因为 在 数据 产生 
的 时 代 ， 相 应 的 数据 处 理 技术 并 未 出 现 。 换 身 话说 ， 在 过 去 我 们 没有 性 价 比 合理 的 方法 去 处 理 那 些 数 据 。 


运用 大 数据 来 解决 问题 的 方法 多 种 多 样 。 举 例 说 明 ， 在 某 些 情形 下 ， 如 监控 车 流量 时 ， 你 可 能 倾向 于 对 数据 进行 实时 处 理 。 
然而 ， 在 有 些 情形 下 ， 对 数据 进行 实时 处 理 并 没有 必要 。 比 方 说 ， 为 确定 某 种 未 知 模型 而 批量 分 析 数 据 ， 那 么 在 收集 数据 样本 时 
并 不 需要 及 时 处 理 数据 。 同 样 ， 作 为 大 数据 处 理 方法 的 一 部 分 ， 需 要 整合 多 种 来 源 数据 ， 那 么 此 时 应 明确 整合 数据 来 源 的 目的 。 


6.1 定义 结构 化 数据 


结构 化 数据 泛 指 长 度 和 格式 被 定义 的 数据 。 例 如 : 数字 、 日 期 、 数 字 文 本 组 合 构成 的 字符 串 (比方 说 ， 一 个 客户 的 姓名 、 地 
址 等 ) 。 大 部 分 专家 认为 这 种 数据 约 占 所 有 数据 的 20%。 人 们 更 倾向 于 与 结构 化 数据 打交道 。 结 构 化 数据 通常 被 储存 在 数据 库 
中 ， 可 以 通过 如 结构 化 查询 语言 (SQL) 进行 查询 。 


你 的 公司 可 能 已 经 从 “传统 ”的 数据 来 源 收集 了 很 多 结构 化 数据 。 这 些 数据 可 能 包括 客户 关系 管理 数据 、 可 操作 的 企业 资源 
计划 数据 和 财务 数据 ， 通 常 被 集中 在 一 个 数据 仓库 中 ， 继 而 进行 分 析 。 


6.2 ”探秘 结构 化 数据 来 源 

尽管 看 似 与 往常 的 商业 应 用 无 异 ， 但 事实 上 ， 结 构 化 数据 在 大 数据 领域 正在 扮演 着 新 角色 。 技 术 革命 为 结构 化 数据 的 产生 提 
供 了 新 来 源 ， 更 加 即时 ， 数 据 量 更 大 。 数 据 来 源 可 分 为 两 类 : 

` 计算 机 或 机 器 产生 的 数据 : 机 器 产生 的 数据 通常 是 指 由 无 人 为 干涉 的 机 器 产生 的 数据 。 

.人 为 产生 的 数据 : 这 是 人 类 与 计算 机 交互 过 程 中 产生 的 。 

有 些 专家 认为 存在 第 三 类 ， 即 机 器 与 人 为 的 混合 。 然 而 此 处 ,我们 讨论 的 是 以 上 两 类 。 

机 器 产生 的 结构 化 数据 包括 如 下 几 种 : 


* 传感器 数据 : 包括 无 线 电 射频 识别 标签 、 智 能 仪表 、 医 疗 器 械 、 全 球 定位 系统 数据 等 。 举 个 例子 : 无 线 射频 识别 是 一 项 正 
在 迅速 发 展 并 普及 的 技术 ， 可 以 运用 微型 计算 机 芯片 来 远程 追踪 目标 。 例 如 ， 这 项 技术 可 用 于 对 农产品 集装箱 点 到 点 地 进行 追踪 
定位 。 信 息 从 接收 器 传 至 服务 器 ， 然 后 服务 器 对 信息 进行 分 析 。 很 多 公司 对 此 感 兴趣 ， 因 为 可 以 通过 这 项 技术 管理 供应 链 并 调控 
库存 。 另 一 个 关于 传感器 数据 的 例子 是 内 置 类 似 于 GPS 这 种 传感器 的 智能 手机 ， 它 可 以 用 于 以 新 方法 分 析 消 费 者 行为 。 


“ 网 页 登录 数据 : 服务 器 、 手 机 APP、 网 络 等 运行 时 ， 会 收集 关于 运行 活动 的 所 有 类 型 的 数据 。 这 些 数 据 可 以 集成 为 大 量 可 
用 数据 ， 例 如 ， 用 于 处 理 服务 级 别 协 议 或 预测 安全 漏洞 。 


* 销售 点 数据 ; 消费 者 购买 商品 、 收 银 员 扫描 货品 条 形 码 时 ， 所 有 与 货品 相关 的 数据 就 此 产生 。 想 象 一 下 全 人 类 购买 的 所 有 
货品 的 体 量 ， 继 而 不 难 想象 产生 的 数据 集 之 大 。 


. 财务 数据 : 目前 很 多 财务 系统 都 是 程序 性 的 ， 它 们 基于 预定 义 规 则 使 流程 自动 化 。 股 票 交 易 数 据 就 是 一 个 很 好 的 财务 数据 


例子 ， 其 中 包括 类 似 公司 标志 和 美元 价值 这 种 结构 化 数据 。 这 些 数据 有 些 是 机 器 产生 的 ， 有 些 是 人 为 产生 的 。 
" 人 为 产生 的 结构 化 数据 包括 如 下 几 种 : 


. 输入 数据 : 指 任何 人 为 输入 计算 机 的 数据 ， 例 如 姓名 、 年 龄 、 收 入 、 非 自由 形式 调查 结果 等 。 这 些 数 据 可 用 于 研究 基本 的 
消费 者 行为 。 


` 点 击 流 数据 : 用 户 每 次 点 击 网 站 链接 所 产生 的 数据 。 这 类 数据 可 用 于 确定 消费 者 行为 和 购买 方式 。 
* 游戏 相关 的 数据 : 用 户 在 游戏 中 的 每 项 操作 都 会 被 记录 。 这 些 数据 可 用 于 分 析 终 端 用 户 在 游戏 产品 中 怎样 推进 游戏 进度 。 


总 之 ,这些 数 据 有 些 本 身 并 不 大 ， 比 如 文件 数据 。 但 是 ， 当 数 百 万 用 户 将 这 些 相同 信息 一 起 提交 时 ， 数 据 就 变 得 极 大 。 此 
外 ， 这 些 数 据 中 很 多 都 有 实时 因素 存在 ， 而 正 是 实时 因素 使 这 些 数据 具有 预测 可 能 结果 的 价值 。 归 根 结 底 ， 这 种 强 有 力 的 信息 可 
以 根据 需求 发 挥 多 种 作用 。 


6.3 ”关系 数据 库 在 大 数据 中 扮演 的 角色 


数据 持久 性 指 的 是 数据 库 被 更 改 时 保存 自身 不 同 版 本 的 能 力 。 关 系 型 数据 库 管 理 系统 是 持久 型 数据 储存 技术 的 始祖 。 在 关系 
型 数据 库 管 理 系统 初期 ， 计 算 机 行业 对 数据 持久 性 使 用 的 技术 在 现在 看 来 十 分 原始 ， 就 是 20 世 纪 80 年 代 左右 十 分 流行 的 平面 文 
件 (flat-file) 数据 存储 和 网 络 (network) 数据 存储 。 尽 管 这 些 机 制 很 实用 ， 但 是 难以 掌握 ， 因 此 要 想 操 作 数 据 需要 系统 程序 
员 编 写 定 制程 序 。 


20 世纪 70 年 代 ，IBM 科学 家 埃 德 加 . 科 德 研究 出 了 关系 模型 ， 并 被 |BM、 甲 明文、 微软 和 其 他 公司 所 沿用 ， 至 今 其 用 途 仍 
十 分 广泛 ， 并 在 大 数据 革命 中 扮演 着 重要 角色 。 因 此 ， 理 解 关 系 型 数据 库 至 关 重要 ， 因 为 其 他 类 型 的 数据 是 与 大 数据 一 起 使 用 
的 。 


在 天 系 模型 中 ， 数 据 是 储存 在 表 中 的 。 数 据 库 中 包含 一 个 略图 ， 是 关于 数据 库 内 容 的 结构 示意 图 。 举 例 说 明 ， 在 关系 型 数据 
库 中 ， 表 格 、 表 格 中 的 内 容 以 及 二 者 的 天 系 都 是 由 这 个 略图 决定 的 。 数 据 按 列 存储 ， 每 列 都 有 特定 的 属性 。 当 然 ， 数 据 也 可 以 按 
行 存储 。 如 图 6-1 所 示 ， 就 是 一 个 简易 数据 库 的 略图 。 左 表 人 存储 的 是 产品 信息 ， 右 表 则 是 人 口 统计 数据 信息 。 每 个 表 都 有 不 同 的 
属性 (顾客 身份 证 号 、 购 买 数量 、 订 单 号 等 ) 。 数 据 库 使 用 者 可 以 更 新 、 删 除 、 读 取 每 个 表 中 的 数据 ， 也 可 以 添加 新 数据 。 因 
此 ， 应 用 关系 型 模型 不 可 避免 地 要 用 到 结构 化 查询 语言 。 


通过 结构 化 查询 语言 使 用 关系 模型 ， 可 以 利用 常见 的 关键 词 进行 查询 (所 谓 的 关键 词 就 是 两 表 之 间 的 关系 ) 。 在 图 6-1 中 ， 
关键 词 是 顾客 身份 证 号 。 


“人口 统计 表 

顾客 身份 证 号 
产品 表 和 

城市 

省 

年 

性 别 

收入 档次 





顾客 身份 证 号 
购买 数量 
订单 号 

收益 


图 6-1 两 表 之 间 的 关系 


举例 说 明 ， 可 以 通过 提交 查询 指令 确定 购买 某 个 产品 的 顾客 的 性 别 。 查 询 指令 如 下 : 





Select CustomerID, State, Gender, Product from"demographic table", "product table"where Product = XXYY 





尽管 关系 型 数据 库 在 过 去 几 十 年 中 为 主流 ， 但 是 当 处 理 不 同 数据 类 型 组 成 的 大 型 数据 流 时 ， 用 关系 型 数据 库 解决 问题 难度 很 
大 。 但 是 ， 关 系 型 数据 库 供应 商 并 未 止步 不 前 ， 他 们 开始 推广 为 大 数据 设计 的 关系 型 数据 库 。PostgresSQL 技 术 是 目前 最 为 广泛 
应 用 的 开放 源 代 码 关 系数 据 库 系统 ， 其 可 扩展 性 及 可 应 用 于 不 同 种 类 主机 的 特性 使 其 成 为 一 些 关 系 型 大 数据 库 的 基本 技术 。 另 
外 ， 新 的 数据 库 模 型 也 得 以 发 展 来 帮助 人 们 处 理 大 数据 。 


64 非 结 构 化 数据 


非 结 构 化 数据 指 的 是 那些 不 遵循 特定 格式 的 数据 。 如 果 企业 可 利用 的 数据 中 20% 是 结构 化 数据 ， 那 剩 下 的 80% 就 是 非 结 构 化 
数据 。 事 实 上 ， 人 们 接触 的 大 多 数 数据 都 是 非 结 构 化 数据 。 然 而 ， 目 前 除了 储存 和 手动 分 析 非 结构 化 数据 ， 并 没有 技术 能 充分 利 
用 它们 。 非 结构 化 数据 随处 可 见 。 事 实 上 ， 大 多 数 的 个 体 和 组 织 都 在 围绕 着 非 结 构 化 数据 进行 分 析 和 处 理 。 同 结构 化 数据 一 样 ， 
非 结 构 化 数据 不 是 机 器 产生 的 ， 就 是 人 为 产生 的 。 


以 下 是 机 器 产生 的 非 结构 化 数据 的 几 个 例子 : 


: 卫星 图 像 : 包括 气象 数据 和 政府 监控 卫星 设备 收集 的 数据 。 
- 科学 数据 : 包括 地 震 图 像 、 大 气 数据 、 高 能 物理 。 
照片 和 视频 : 安保 、 监 控 、 交 通 视 频 图 像 。 
雷达 和 声呐 数据 : 包括 车 辆 、 和 气象 、 海 洋 、 地 震 等 的 剖面 图 。 
下 面 列举 的 是 人 为 产生 的 非 结构 化 数据 的 几 个 例子 : 
: 公司 内 部 资料 : 所 有 的 文本 ， 包 括 文 件 、 日 志 、 调 查 结果、 电子 邮件 等 。 企 业 信 息 实 际 上 在 文本 信息 中 占 很 大 比重 。 
. 社交 媒体 资料 : 这 类 数据 由 YouTube、Facebook、Twitter、LinkedIn、Flickr 等 社交 媒体 平台 产生 。 
“ 手机 数据 : 包括 短信 数据 和 定位 数据 。 
* 网 站 内 容 : 这 些 数据 来 源 于 所 有 提供 非 结构 化 内 容 的 网 站 ， 例 如 YouTube、Flickt 或 Instagramo。 


有 些 人 认为 “ 非 结 构 化 数据 ”这 个 术语 容易 造成 误导 ， 因 为 每 个 文件 都 可 能 基于 生成 这 些 文件 的 软件 而 包含 特定 的 结构 或 格 
式 。 但 是 ， 文 件 内 部 完全 是 非 结 构 化 的 。 


到 目前 为 止 ， 在 所 有 数据 中 ， 非 结构 化 数据 所 占 比 例 最 大 ， 并 且 ， 运 用 非 结构 化 数据 的 案例 也 在 急剧 增多 。 但 就 文本 方面 来 
说 ,文本 分 析 学 可 用 于 分 析 非 结构 化 文本 ， 提 取 相 关 数 据 并 将 其 转化 成 结构 化 信息 ， 从 而 进行 各 种 分 析 。 举 例 说 明 ， 一 个 很 常用 
的 大 数据 使 用 案例 就 是 利用 大 量 用 户 对 话 进 行 社交 媒体 分 析 。 此 外 ， 来 源 于 呼叫 中 心 记录 、 电 子 邮 件 、 调 查 中 的 手写 评论 和 其 他 
文件 的 数据 ， 经 过 分 析 可 用 于 理解 消费 者 行为 。 这 一 点 可 以 同 社交 媒体 的 亿 万 信息 源 相 结合 ， 以 了 解 消费 者 的 体验 。 


半 结 构 化 数据 


半 结 构 化 数据 是 一 种 介 于 结构 化 数据 和 非 结构 化 数据 之 间 的 数据 。 半 结构 化 数据 未 必 遵 从 于 某 种 特定 形式 ， 但 是 能 自我 描 
述 ， 可 能 包含 一 些 简单 的 标签 对 或 值 对 。 举 例 说 明 ， 标 签 对 或 值 对 可 能 包含 <family>=Jones，<mother>=Jane，<daughter>=Sarah 
的 类 似 内 容 。 半 结构 化 数据 包括 电子 数据 交换 、SWIFT (一 种 编程 语言 ) 、 可 拓展 标志 语言 ， 可 以 理解 为 运行 复杂 程序 的 有 效 载 


这 


荷 。 


6.5 内容 管理 系统 在 大 数据 管理 中 的 作用 


组 织 机 构 将 一 些 非 结 构 化 数据 储存 在 数据 库 中 ， 但 是 他 们 也 会 利用 内 容 管理 系统 来 管理 内 容 的 整个 周期 ， 包 括 网 页 内 容 、 文 
件 内 容 和 其 他 形式 的 媒体 。 


根据 信息 与 图 像 管理 协会 (一 个 提供 培训 与 最 佳 实践 的 非 营 利 组 织 ) 的 描述 ， 企 业内 容 管理 包含 了 “收集 、 管 理 、 存 储 、 保 
存 、 传 输 与 组 织 进 程 有 关 的 内 容 、 文 件 的 策略 、 方 法 和 工具 ”。 企 业内 容 管 理 包含 的 技术 有 文件 管理 、 记 录 管 理 、 图 像 管 理 、 工 
作 流 程 管理 、 网 页 内 容 管理 及 协作 。 


关于 内 容 管理 的 完整 产业 已 经 成 长 起 来 。 很 多 销售 内 容 管理 技术 的 公司 正在 推广 他 们 处 理 大 量 非 结构 化 数据 的 技术 和 解决 方 
案 。 当 然 ， 新 技术 也 在 不 断 发 展 ， 从 而 能 够 支持 处 理 并 分 析 非 结构 化 数据 。 这 些 技术 中 有 些 既 能 支持 结构 化 数据 又 能 支持 非 结构 
化 数据 ， 有 些 还 支持 实时 数据 流 。 这 些 技术 包括 Hadoop、MapReduce (一 种 编程 模型 ) 、 流 数据 。 


那些 设计 出 来 以 内 容 管理 系统 形式 存在 用 于 储存 内 容 的 系统 ， 并 不 是 唯一 的 技术 方案 。 但 是 ， 它 们 更 适合 作为 数据 管理 整体 
方案 的 一 部 分 。 例 如 ， 你 所 在 的 机 构 可 能 会 监测 微 博 ， 然 后 通过 编程 触发 内 容 管理 系统 进行 调查 。 现 在 ， 触 发 微 博 的 人 (可 能 
在 寻求 某 个 问题 的 解决 方案 ) 得 到 的 答案 反馈 是 一 个 位 置 ， 那 里 可 能 有 他 正在 找 的 某 样 东西 。 由 此 ， 不 难看 出 合理 运用 实时 结构 
化 数据 、 实 时 非 结 构 化 数据 、 实 时 半 结 构 化 数据 的 价值 。 


事实 是 ， 在 解决 大 数据 问题 时 ， 更 多 地 会 采用 几 种 技术 方法 的 混合 。 例 如 ， 把 所 有 的 新 内 容 全 部 移 除 并 没有 什么 道理 ; 再 例 
如 ， 采 用 Hadoop 的 前 提 是 你 要 用 它 来 处 理 非 结 构 化 数据 。 


6.6 ”实时 和 非 实 时 条 件 


大 数据 一 般 用 来 解决 那些 因 技术 水 平 不 足 或 成 本 过 高 而 导致 的 不 易 解决 甚至 不 可 能 解决 的 问题 。 目 前 大 数据 带 给 我 们 的 改 
变 ， 就 是 无 需 使 用 过 去 那些 复杂 的 工具 ， 我 们 也 能 处 理 大量 数 据 。 在 管理 大 量 复 杂 数 据 上 ， 很 多 机 构 已 经 到 了 一 个 临界 点 。 数 据 
的 数量 、 种 类 和 速度 的 变化 都 已 达到 一 个 临界 点 ， 而 大 数据 方法 能 帮助 人 们 平稳 掌控 这 些 因素 而 不 致 失控 。 越 来 越 多 的 数据 急需 
迅速 处 理 ， 管 理 这 些 数据 已 经 困扰 某 些 企业 很 久 了。 无奈 之 下 ， 企 业 只 能 分 析 小 型 数据 子 集 ， 但 这 样 无 法 得 到 一 些 关 键 数据 ， 也 
就 无 从 得 知 数据 所 反映 的 整体 情况 。 随 着 大 数据 技术 的 不 断 进步 ， 通 过 分 析 数 据 来 进行 决策 将 变 得 越 来 越 简单 。 


在 企业 需要 解决 重要 问题 时 ， 大 数据 的 实时 性 是 革命 性 的 。 当 一 个 机 构 能 实时 处 理 数据 流 时 ， 意 味 着 什么 呢 ? 总 的 来 说 ， 实 
时 方法 对 于 解决 具有 时 效 性 的 天 键 业 务 最 为 适用 。 比 方 说， 监测 医院 设备 运行 、 预 估 入 侵 风险 这 种 存在 潜在 威胁 的 重要 事项 。 企 
业 期 望 通过 把 握 实 时 数据 来 获取 先 机 ， 举 例如 下 : 


-监测 新 消息 的 意外 情况 ， 例 如 诈骗 或 情报 。 





` 监测 新 闻 推 送 和 社交 媒体 ， 从 而 判断 可 能 影响 金融 市 场 的 重大 事件 ， 比 如 消费 者 对 新 产品 发 布 的 反应 。 
- 基于 微 博 实时 流量 ， 在 重大 体育 赛事 中 改变 广告 位 置 。 
* 根据 消费 者 在 销售 点 买 的 东西 而 提供 打折 券 。 


有 了 时 数据 来 源 并 不 多 但 流 数 据 流入 很 快 ， 有 时 流 数据 来 源 很 多 ， 有 时 二 者 兼 而 有 之 。 关 于 是 否 需 要 启用 实时 数据 ， 你 要 关心 
的 问题 是 : 这 个 问题 能 用 传统 的 信息 管理 方法 解决 吗 ， 还 是 需要 新 方法 ”数据 的 数量 和 流入 速度 对 于 系统 来 说 处 理 起 来 吃力 吗 ? 
有 时 需要 综合 考虑 这 两 个 问题 。 


如 果 需 要 实时 处 理 数据 的 能 力 ， 那 么 基础 设施 需要 达到 | 怎样 的 条 件 才 能 支持 该 技术 ? 这 个 问题 我 们 会 在 讨论 分 布 计算 时 深入 
探究 。 天 于 系统 实时 摄取 、 加 工 、 分 析 数 据 的 能 力 ， 需 要 重点 考虑 以 下 因素 : 


低 延 时 : 延 时 指 的 是 使 服务 在 某 个 环境 下 开始 执行 的 时 间 差 。 有些 软 件 要 求 低 延 时 ， 这 意味 着 对 它们 需要 进行 实时 反馈 。 
因而 实时 流 也 要 求 低 延 时 ， 所 以 计算 机 能 力 和 网 络 约 束 都 要 考虑 。 


可 伸缩 性 : 可 伸缩 性 指 的 是 在 增长 的 负荷 下 仍 能 维持 某 种 程度 运行 的 能 力 。 
. 通用 性 : 系统 必须 既 能 支持 结构 化 数据 流 ， 又 能 支持 非 结 构 化 数据 流 。 


. 本 机 格式 : 使 用 本 机 格式 的 数据 ， 转 换 格 式 费 时 费 钱 。 处 理 触 发 事件 的 数据 中 复杂 信息 交互 的 能 力 应 该 是 可 转化 的 。 





不 同类 型 的 数据 持续 增加 ， 人 们 处 理 这 些 数据 的 需求 成 为 云 服务 被 接受 的 关键 因素 ， 云 模式 继而 得 以 广泛 应 用 。 


6.7 大 数据 集成 

之 所 以 选择 这 种 数据 处 理 技术 而 不 是 那 种 技术 ， 是 由 要 用 结构 化 和 非 结构 化 数据 做 什么 决定 的 。 这 也 决定 了 有 必要 了 解数 据 
的 结构 ， 从 而 把 数据 存储 在 正确 的 位 置 。 

1 .管理 不 同类 型 的 数据 


表 6-1 很 实用 ， 其 中 列 出 了 一 些 大 数据 的 特征 以 及 管理 相应 数据 的 数据 管理 系统 。 


表 6-1 不 同 数 据 类 型 的 特征 


复 末 查 询 
风化 天 RDBMS 
非 结构 化 数据 Columnar 
结构 化 数据 和 非 结构 化 数据 Hybrid 


2. 将 数据 类 型 整合 到 大 数据 环境 下 





一 般 来 说 ， 大 数据 之 所 以 重要 的 男 一 个 原因 是 ， 并 不 需要 拥有 所 有 将 用 到 的 数据 。 很 多 例子 都 可 以 说 明 这 一 点 。 你 可 以 使 用 
社交 媒体 数据 、 第 三 方 行业 统计 数据 ， 甚 至 卫星 数据 。 想 想 社交 媒体 数据 你 就 明 折 了。 通常， 整合 不 同 数据 来 源 是 必需 的 。 因 为 
数据 可 能 来 源 于 所 有 内 部 系统 ， 也 可 能 既 有 内 部 来 源 也 有 外 部 来 源 ， 或 者 全 部 来 源 于 外 部 。 这 些 数 据 很 多 都 曾 被 储存 过 。 


数据 不 必 是 实时 收集 的 。 你 可 能 有 很 多 数据 ， 甚 至 数据 本 质 都 是 不 同 的 。 这 仍 可 被 视 为 一 个 大 数据 问题 。 当 然 ， 你 也 可 能 
临海 量 不 同类 型 的 高 速 数 据 。 关 键 问题 是 ， 如 果 你 处 理 的 是 多 种 数据 来 源 得 来 的 互 不 相关 的 信息 ， 那 么 是 没有 商业 价值 的 。 


你 要 考虑 的 因素 包括 连接 器 和 元 数据 ， 我 们 接 下 来 会 讨论 。 

3. 连 接 器 

想 把 从 不 同 大 数据 来 源 得 来 的 数据 分 离开 来 需要 连接 器 。 可 能 你 想 的 是 Twitter 连接 器 或 Facebook 连 接 器 。 但 是 ， 你 可 能 需 
要 分 离 出 来 一 项 信息 叫 数据 来 源 ， 用 来 整合 数据 仓库 ， 继 而 才能 一 起 分 析 所 有 数据 来 源 所 得 的 数据。 

4. 元 数据 


整合 所 有 数据 最 关键 的 因素 就 是 元 数据 。 元 数据 是 一 些 定义 、 图 标 和 其 他 特征 ， 主 要 是 描述 资料 属性 (property) 的 资 
讯 ， 用 来 支持 如 指示 储存 位 置 、 历 史 资 料 、 资 源 寻 找 、 文 件 记录 等 功能 。 账 号 就 是 一 个 元 数据 。 账 号 的 元 数据 包括 数字 、 摘 述 、 
数据 类 型 、 姓 名 、 地 址 、 电 话 和 隐私 等 级 。 


大 数据 可 以 用 于 帮助 组 织 数据 的 存储 、 处 理 新 数据 来 源 、 变 更 数据 来 源 。 昌 然 元 数据 并 不 是 新 出 现 的 ， 但 正在 大 数据 背景 
变化 和 发 展 。 在 传统 元 数据 领域 中 ， 能 体现 所 有 数据 类 型 的 单 视图 目录 很 重要 。 但 是 ， 当 你 不 控制 数据 来 源 时 ， 这 个 目录 就 不 一 
样 了 。 此 时 需要 分 析 工 具 来 帮助 你 找 出 基本 元 数据 。 


第 7 章 ”大 数据 的 新 学 式 : 我 们 想 要 从 大 数据 系统 中 获得 什么 


本 章 详细 介绍 


| 


了 大 数据 系统 的 重要 特性 。 当 评估 现 有 的 大 数据 系统 或 开发 新 的 系统 时 ， 有 必要 仔细 考虑 这 些 因素 。 
同时 必须 很 容易 使 用 。 接 下 来 ， 让 我 们 逐一 讨论 每 个 特性 。 
7.1 


大 数据 系统 中 值得 关注 的 特性 是 极其 复杂 的 ， 例 如 可 扩展 性 。 不 仅 大 数据 系统 平台 本 身 需要 很 好 ， 且 系统 资源 效率 也 要 求 很 
稳定 性 和 容错 性 


们 难以 理解 系统 正在 做 什 和 


则 系统 将 通过 提供 


二 林木 
/月 人 E 


利用 分 布 式 架构 构建 合适 的 数据 系统 是 很 具有 挑战 的 。 尽 管 计算 本 身 的 成 本 一 直 在 下 降 ， 但 是 系统 资源 仍然 需要 被 有 效 地 利 


用 。 在 分 布 式 数据 库 中 一 致 性 的 复杂 语义 如 何 统一 表达 ?” 宛 余数 据 如 何 处 理 ” 高 并 发 数据 的 请 求 如 何 有 效 响 应 ”这 些 挑战 使 得 人 


完善 大 数据 系统 的 一 部 分 就 是 避免 这 些 复杂 问题 的 出 现 ， 以 便 可 以 轻松 地 操作 系统 。 


如 前 所 述 ， 系 统 必 须 具 备 人 为 容错 特性 。 这 是 一 个 常常 被 忽视 的 系统 特性 。 在 生产 系统 中 ， 有 时 候 会 出 现 错误 ， 例 如 部 署 了 
不 正确 的 代码 ， 破 坏 数据 库 中 的 某 个 值 ， 这 些 都 是 不 可 避免 的 。 如 果 将 “ 非 可 变性 ”和 “可 重复 计算 ” 列 入 大 数据 系统 的 核心 ， 
且 简 单 的 恢复 机 制 来 适应 人 为 的 错误 


7.2 横向 扩容 


绝 大 多 数 应 用 程序 需要 以 非常 低 的 延迟 (通常 在 几 之 秒 到 几 百 毫秒 之 间 ) 来 满足 读 取 。 另 一 方面 ， 数 据 更 新 延迟 在 每 个 应 用 


系统 中 需要 能 够 实现 低 延 迟 更 新 数据 。 更 重要 的 是 ， 你 需要 能 够 实现 低 延 迟 读 取 和 快速 的 更 新 ， 同 时 不 


p= 
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程序 之 间 具 有 很 大 的 差别 。 有 些 应 用 程序 需要 立即 进行 更 新 ， 但 在 有 些 应 用 程序 中 ， 延 迟 几 个 小 时 是 允许 的 。 无 论 如 何 ， 大 数据 


响 到 系统 的 稳定 性 。 

横向 扩容 是 指 当 数据 量 /负载 需求 增 大 时 ， 系 统 可 以 通过 增加 更 多 的 机 器 资源 来 维持 性 能 
的 所 有 层 进行 横向 扩容 ， 即 添加 更 多 的 机 器 来 实现 弹性 扩展 。 

据 的 功能 


一 般 的 系统 可 以 支持 更 广泛 的 数据 应 用 。 事 实 上 ， 如 果 它 不 能 


Lambda 架 构 可 以 横 跨 系 统 堆栈 
所 以 它 适 用 于 所 有 应 用 程序 ， 无 论 是 财务 管理 系统 、 社 交 媒 体 分 析 、 科 学 数据 应 用 ， 还 是 其 他 任何 应 用 程序 。 
7.3 可 扩展 性 


这 本 书 也 就 没有 了 学 习 价值 ! 因为 Lambda 架 构 基 于 所 有 数 


能 力 之 一 


谁 也 不 想 在 每 次 添加 相关 功能 或 更 改 系 统 工作 原理 时 重新 去 发 明 轮 子 。 可 扩展 系统 允许 以 最 小 化 的 开发 成 本 添加 新 的 功能 
7.4 即席 查询 


通常 情况 下 ， 新 功能 或 对 现 有 功能 的 更 改 ， 需 要 将 旧 的 数据 迁移 到 新 格式 。 容 易 进 行 大 规模 的 数据 迁移 是 系统 具备 可 扩展 特性 的 


能 够 对 数据 进行 即席 查询 是 非常 重要 的 。 几 乎 每 个 大 数据 集 都 有 意 想 不 到 的 价值 。 任 意 挖掘 数据 集 的 能 力 ， 使 对 业务 进行 优 
化 或 对 新 应 用 程序 进行 探索 性 的 开发 提供 了 更 多 可 能 。 最 终 ， 如 果 不 能 很 容易 地 进行 数据 查询 操作 ， 那 么 很 难 通过 数据 探索 出 更 


7.5 最 小 化 维护 
维护 是 开发 者 的 成 本 。 维 护 是 保持 系统 平稳 运行 所 需 的 工作 。 这 包括 预计 何 时 添加 机 器 以 扩展 ， 保 持 进程 正常 运行 ， 以 及 调 
试 生产 环境 中 出 错 的 任何 东西 。 


最 小 化 维护 的 一 个 重要 特点 是 用 尽 可 能 少 的 组 件 来 实现 复杂 的 特性 。 特 别 强 调 的 是 ， 分 布 式 数据 库 往往 具有 非常 复杂 的 系统 
结构 。 系 统 越 是 复杂 ， 越 可 能 出 现 问题 ， 而 你 需要 了 解 系统 ， 来 调试 和 调整 系统 出 现 的 问题 。 


我 们 希望 通过 使 用 简单 的 算法 和 简单 的 组 件 来 实现 复杂 系统 的 维护 。 在 Lambda 架 构 采用 的 方法 是 针对 复杂 系统 推出 核心 部 
件 监控 总 线 ， 它 输出 各 个 部 分 的 运营 信息 ， 并 在 几 个 小 时 后 会 被 丢弃 。 所 使 用 的 最 复杂 的 组 件 ( 读 / 写 分 布 式 数据 库 ) 位 于 此 
层 ， 其 最 终 输 出 可 以 被 丢弃 。 


7.6 可 调试 性 


大 数据 系统 必须 提供 在 出 现 问题 时 调试 系统 所 需要 的 信息 。 关 键 是 能 够 通过 对 这 些 系统 值 进行 跟踪 来 解决 问题 。 


在 Lambda 架 构 中 ，“ 可 调试 ”是 指 当 问 题 出 现时 ， 采 用 批量 处 理 层 的 特性 和 通过 优先 使 用 计算 算法 进行 重新 计算 来 恢复 问 


题 。 


在 一 个 系统 中 实现 所 有 这 些 特性 似乎 是 一 个 艰巨 的 挑战 。 但 是 从 最 基本 的 原则 开始 ， 像 Lambda 架 构 所 做 的 就 是 将 这 些 特性 
从 最 初 的 系统 设计 中 自然 地 融入 。 


在 深入 了 解 Lambda 架 构 之 前 ， 让 我 们 来 看 看 大 多 数 的 传统 架构 (其 主要 特点 是 依赖 于 增 量 计算 ) ， 以 及 它们 为 什么 无 法 满 
足 这 些 特性 。 


7.7 ”完全 增 量 式 架 构 


在 最 上 层 ， 传 统 架构 类 似 图 7-1 所 示 。 这 些 架 构 的 特点 是 使 用 读 / 写 数据 库 ， 当 需要 看 到 新 数据 时 ， 以 增 量 方式 维护 这 些 数据 
库 中 的 状态 。 例 如 ， 网 页 浏览 量 计数 的 方法 是 通过 向 计数 器 字段 添加 一 个 最 新 处 理 过 的 访问 URL 页 面 的 浏览 量 值 。 架 构 的 这 种 特 
性 好 比 关系 型 数据 库 和 非 关 系 型 数据 库 以 往 的 应 用 方式 。 事实 上 ， 关 系 型 数据 库 和 非 关 系 型 数据 库 部 署 中 绝 大 部 分 是 作为 完全 增 
量 式 架构 来 完成 的 。 这 种 方式 已 经 使 用 了 几 十 年 。 





值得 强调 的 是 ， 完 全 增 量 的 架构 应 用 得 如 此 广泛 ， 许 多 人 没有 意识 到 可 以 使 用 不 同 的 架构 来 避免 他 们 的 问题 。 这 些 问 题 都 是 
很 常见 的 、 根 深 蒂 固 的 复杂 问题 ， 你 甚至 没有 想 过 找到 一 种 方法 来 避免 问题 的 出 现 。 


完全 增 量 架构 的 问题 是 严重 的 。 我 们 接 下 来 探讨 这 个 主题 ， 看 看 任意 一 个 完全 增 量 式 架构 带 来 的 一 般 复杂 性 。 然 后 讨论 同一 
问题 的 两 个 对 比 解决 方案 : 一 个 使 用 完全 增 量 解决 方案 ， 另 一 个 使 用 Lambda 架 构 。 你 会 看 到 完全 增 量 版 本 在 每 个 方面 都 明显 更 


糟 。 


7.8 ”操作 复杂 性 


在 完全 增 量 架构 中 存在 许多 复杂 性 ， 这 在 操作 生产 基础 设施 方面 造成 许多 困难 。 这 里 我 们 将 重点 关注 : 需要 读 / 写 数据 库 来 
执行 在 线 调 度 ， 以 及 必须 做 什么 才能 保持 操作 的 顺利 运行 。 


在 读 / 写 数据 库 中 ， 随 着 磁盘 素 引 被 递增 地 添加 和 修改 ， 部 分 索引 不 再 被 使 用 。 这 些 未 被 使 用 的 部 分 占用 了 空间 ， 最 终 需 
回收 以 防止 磁盘 被 填 满 。 回 收 未 被 使 用 的 空间 是 花费 巨大 的 操作 ， 因 此 在 执行 压缩 的 过 程 中 ， 空 间 偶尔 会 被 大 量 回收 。 


压缩 是 一 项 高 负载 的 操作 。 服 务 器 在 压缩 期 间 对 CPU 和 磁盘 的 需求 会 显著 提高 ， 这 期 间 机 器 的 计算 性 能 会 明显 下 降 。 诸 如 
HBase 和 Cassandra 的 数据 库 是 众所周知 的 ， 需 要 仔细 配置 和 管理 以 避免 在 压缩 期 间 出 现 问题 或 服务 器 锁 死 。 压 缩 期 间 的 性 能 损 
失 是 一 个 复杂 的 问题 : 如 果 太 多 的 机 器 同时 压缩 ， 它 们 支持 的 负载 将 必须 由 集群 中 的 其 他 机 器 处 理 ， 这 可 能 会 使 群集 的 其 余部 分 
超载 ， 从 而 导致 完全 失败 。 我 们 已 经 看 到 这 种 失败 模式 发 生 了 很 多 次 。 


正确 的 压缩 方法 是 必须 在 每 个 节点 上 做 限定 的 压缩 ， 这 样 不 会 同时 影响 太 多 的 节点 。 你 必须 知道 压缩 需要 人 花费 多 长 的 时 间 
一 一 以 及 时 间 变 化 ， 以 避免 更 多 的 节点 进行 压缩 计算 。 你 必须 确保 节点 上 有 足够 的 磁盘 容量 ， 以 便 在 压缩 过 程 中 不 至 于 过 载 。 
另外 ， 必 须 确保 集群 上 有 足够 的 计算 资源 ， 这 样 ， 当 资源 被 压缩 过 程 占用 时 不 会 出 现 过 载 。 


所 有 这 些 都 可 以 由 一 个 合格 的 操作 人 员 管 理 ， 但 我 们 的 观点 是 ， 处 理 任 何 复杂 性 的 最 佳 方式 是 完全 摆脱 这 种 复杂 性 。 处 理 在 
线 压缩 是 完全 增 量 架 构 所 固有 的 复杂 特性 ， 但 在 Lambda 架 构 中 ， 主 数据 库 不 需要 任何 联机 压缩 。 


7.9 极其 复杂 地 实现 最 终 一 致 性 





当 试图 使 系统 高 度 可 用 时 ， 增 量 架 构 需要 处 理 另 一 个 复杂 性 致 性 。 即 使 存在 机 器 或 部 分 网 络 故 障 ， 高 可 用 性 系统 也 


允许 查询 和 更 新 。 


事实 证 明 ， 同 时 实现 高 可 用 性 与 一 致 性 是 互 斥 的 。 一 致 性 的 系统 要 考虑 所 有 先前 写 入 的 结果 。 一 个 被 称 为 CAP 的 定理 已 经 表 
明 ， 在 同一 个 网 络 分 区 的 环境 下 ， 在 同一 系统 中 实现 高 可 用 性 和 一 致 性 是 不 可 能 实现 的 。 因 此 ， 高 可 用 性 系统 有 时 在 一 个 网 络 分 
区 中 返回 过 时 的 计算 结果 。 

在 这 里 我 们 聚焦 在 如 何 伴随 整个 系统 的 构建 过 程 中 实现 完全 一 致 性 和 高 可 用 性 。 事 实证 明 ， 如 果 你 的 业务 需求 要 求 高 可 用 性 
与 完全 一 致 性 ， 你 必须 面 对 一 个 巨大 的 复杂 性 带 来 的 挑战 。 


为 了 使 高 可 用 性 系统 在 网 络 分 区 结束 后 恢复 一 致 性 ， 需 要 从 应 用 程序 中 获得 大 量 帮 助 。 例 如 ， 在 数据 库 中 维护 计数 的 基本 用 


例 。 明 显 的 做 法 是 在 数据 库 中 存储 一 个 数字 ， 并 在 收 到 一 个 需要 计数 的 事件 时 增加 该 数字 。 如 果 采 取 这 种 方法 ， 在 网 络 分 区 中 可 
能 会 出 现 大 量 数据 的 丢失 。 


出 现 数据 丢失 的 原因 是 由 于 分 布 式 数据 库 是 通过 所 存储 的 信息 和 多 个 副本 来 实现 高 可 用 性 的 。 当 保存 相同 信息 的 许多 副本 ， 
该 信息 仍然 可 用 ， 即 使 机 器 断 开 或 网 络 被 切断 ， 如 图 7-2 所 示 。 在 网 络 分 区 中 ， 选 择 高 可 用 性 的 系统 就 意味 着 客户 端 具备 更 新 信 
息 多 个 副本 的 能 力 。 这 也 会 导致 副本 分 支 之 间 有 接收 到 不 同 的 更 新 集 的 可 能 。 只 有 当 网 络 分 区 消失 时 ， 多 个 副本 才能 合并 为 一 个 
共 值 。 


J 


b> 





询问 


图 7-2 使 用 副本 以 提高 可 用 性 


假设 一 个 网 络 分 区 有 两 个 副本 ， 初 始 计数 为 10。 如 果 第 一 个 副本 获得 2 个 增 量 ， 第 二 个 副本 获得 1 个 增 量 。 当 将 这 些 副 本 合 
并 在 一 起 时 ， 值 分 别 是 12 和 11， 合 并 值 应 该 是 多 少 合适 呢 ? 虽然 正 确 答案 是 13， 但 只 看 到 数字 12 和 11， 是 无 法 知道 正确 答案 
的 。 它 们 可 能 在 11 分 歧 (在 这 种 情况 下 答案 将 是 12) ， 或 者 它们 可 能 在 0 分 歧 (在 这 种 情况 下 答案 将 是 23) 。 

正确 执行 高 可 用 性 计数 ， 不 只 是 简单 地 人 存储 一 个 计数 。 你 需要 一 个 数据 结构 ， 以 便 在 值 发 生 分 歧 时 进行 合并 ， 并 且 需 要 一 段 
代码 ， 在 分 区 结束 将 值 进行 修复 。 而 这 些 本 身 就 具有 复杂 性 ， 但 你 必须 去 处 理 ， 仅 仅 是 为 了 维持 一 个 正确 、 简 单 的 计数 而 已 。 


一 般 来 说 ， 在 增 量 中 处 理 最 终 的 一 致 性 ， 高 可 用 性 系统 不 会 很 直观 ， 而 且 容 易 出 错 。 对 于 高 可 用 性 、 完 全 增 量 的 系统 而 言 ， 
这 种 复杂 性 是 固有 的 。 稍 后 你 将 看 到 Lambda 架 构 如 何以 不 同 的 方式 构建 自身 ， 从 而 大 大 减少 实现 高 可 用 性 的 负担 ， 构 建 最 终 一 
致 的 系统 。 


7.10 人 为 容错 的 缺陷 


完全 增 量 架 构 的 最 后 一 个 问题 是 人 为 容错 方面 的 一 些 不 足 之 处 。 增 量 系 统 是 通过 不 断 地 修改 在 数据 库 中 保存 的 状态 ， 来 保持 
言 息 的 时 效 性 的 。 这 意味 着 一 个 错误 的 操作 也 可 以 修改 数据 库 中 的 状态 。 因 为 错误 操作 是 不 可 避免 的 ， 所 以 在 完全 增 量 架构 中 的 
数据 库 就 很 容易 被 破坏 。 


注意 ， 这 是 完全 增 量 架构 的 少数 复杂 性 之 一 一 可 以 在 没有 完全 重新 思考 架构 的 情况 下 解决 。 可 以 参考 图 7-3 中 所 示 的 两 种 
架构 : 同步 架构 ， 其 中 应 用 程序 直接 对 数据 库 进 行 更 新 ;异步 架构 ， 其 中 事件 在 更 新 后 台数 据 库 之 前 进入 队列 ， 每 个 事件 都 被 永 
久 锁定 到 事件 数据 存储 。 因 为 事件 存储 是 不 可 变 的 ， 并 且 不 断 增 长 ， 所 以 可 以 进行 元 余 检 查 (例如 权限 ) ， 使 其 不 被 错误 事件 所 
占 满 这 种 技术 也 是 Lambda 架 构 的 核心 。 





流 处 理 往 





同步 染 构 异步 染 构 
图 7-3 ”将 日 志 记 录 添 加 到 完全 增 量 架构 


虽然 完全 增 量 架构 可 以 通过 日 志 记 录 的 方式 来 克服 人 为 容错 方面 的 缺陷 ， 但 通过 日 志 记 录 方 式 没 有 办 法 解决 上 文 讨论 过 的 其 
他 复杂 特性 。 


7.11 Lambda 架 构 


Lambda 架 构 [的 主要 思想 是 将 大 数据 系统 架构 为 多 个 层次 ， 分 别 为 批 处 理 层 (batch layer) 、 加 速 层 (speed layer) 、 
服务 层 (serving layer) ， 如 图 7-4 所 示 。 


理想 状态 下 ， 任 何 数据 访问 都 可 以 从 表达 式 query=function (all data) 开始 ， 但 是 ， 若 数据 达到 相当 大 的 一 个 级 别 (例如 
PB) ， 且 需要 支持 实时 查询 时 ， 就 需要 耗费 非常 庞大 的 资源 。 一 个 解决 方式 是 预 运 算 查 询 函 数 (precomputed query 
funciton) 。 我 们 将 这 种 预 运算 查询 函数 称 之 为 批 处 理 视图 (batch view) (A) ， 于 是 当 需 要 执行 查询 时 ， 可 以 从 批 处 理 视图 
中 读 取 结果 。 这 样 一 个 预先 运算 好 的 视图 (view) 是 可 以 建立 索引 的 ， 因 而 可 以 支持 随机 读 取 (B) 。 于 是 系统 就 变 成 : 


(A) batch view=function (all data) ; 


(B) query=function (batch view) 。 
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不 可 变 主 数据 预 处 理 视图 
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图 7-4 Lambda 架 构 示意 图 
1. 批 处 理 层 


在 Lambda 架 构 中 ， 实 现 (A) batch view=function (all data) 的 部 分 称 之 为 批 处 理 层 ， 如 图 7-5 所 示 。 它 承担 以 下 两 个 


3 
2 口 
中 


批 处 理 视图 


批 处 理 视图 


批 处 理 视 图 


图 7-5” 批 处 理 层 不 断 处 理 数据 示意 图 


1) 存储 MasterDataset， 这 是 一 个 不 变 的 持续 增长 的 数据 集 。 
2) 针对 这 个 MasterDataset 进 行 预 运算 。 


在 全 体 数据 集 上 在 线 运行 查询 函数 得 到 结果 的 代价 太 大 ， 而 且 处 理 查询 时 间 过 长 ， 导 致 用 户 体验 不 好 。 如 果 我 们 预先 在 数据 
集 上 计算 并 保存 预计 算 的 结果 ， 查 询 的 时 候 就 可 以 直接 返回 预计 算 的 结果 ， 而 无 需 重新 进行 耗 时 的 计算 。 显 然 ， 批 处 理 视图 是 一 
个 批 处 理 过 程 ， 如 采用 Hadoop 或 Spark 支 持 的 MapReduce 方 式 。 采 用 这 种 方式 计算 得 到 的 每 个 视图 都 支持 再 次 计算 ， 且 每 次 
计算 的 结果 都 相同 。 


对 视图 的 理解 


视图 是 一 个 和 业务 关联 性 比较 大 的 概念 ， 视 图 的 创建 需要 从 业务 自身 的 需求 出 帮 。 对 于 一 个 通用 的 数据 库 查 询 系统 ， 查 询 对 
应 的 函数 干 变 万 化 ， 不 可 能 穷 举 。 但 是 如 果 从 业务 自身 的 需求 出 发 ， 可 以 发 现 业 务 所 需要 的 查询 常常 是 有 限 的 。 批 处 理 层 需要 做 


的 一 件 重要 的 工作 就 是 根据 业务 的 需求 ， 考 察 可 能 需要 的 各 种 查询 ， 根 据 查 询 定义 其 在 数据 集 上 对 应 的 视图 。 
批 处 理 层 的 不 可 变数 据 模型 和 视图 


如 图 7-6 所 示 ， 坐 席 (agentid = 50023) 的 人 ， 在 10: 00: 06 的 时 候 状态 是 calling， 在 10: 00: 10 的 时 候 状 态 为 
waiting。 在 传统 的 数据 库 设 计 中 ， 后 面 的 纪录 直接 覆盖 前 面 的 纪录 ， 而 在 不 可 变数 据 模型 中 ， 不 会 对 原 有 数据 进行 更 改 ， 而 是 
采用 插入 修改 纪录 的 形式 更 改 历史 纪录 ，。 


2016-06-21 10:00:00 40023 online E> agent: sum ( 12345 ) 


2016-06-21 10:00:06 CC2 H2 50023 calling po 每 个 公司 的 agent 


2016-06-21 10:00:10 C2 H2 50023 waiting 


0 年 个 执 线 的 agent 0 革 BBu 
sum (agent ID) Cl 
HI 45 


C2 125 
H2 68 C3 400 
H2 89 
H3 99 


图 7-6 ”Lambda 架 构 : 不 可 变数 据 + 视 图 


上 文 所 提 及 的 视图 是 图 7-6 中 预先 计算 得 到 的 相关 视图 ， 例 如 : 2016-06-21 当 天 所 有 上 线 的 agent 数 ， 每 条 热线 、 公 司 下 上 
线 的 agent 数 。 根 据 业 务 需要 ， 预 先 计 算出 结果 。 此 过 程 相当 于 传统 数 仓 建 模 的 应 用 层 ， 应 用 层 也 是 根据 业务 场景 ， 预 先 加 工 出 
的 视图 。 


2. 加 速 层 


批 处 理 层 能 够 很 好 地 处 理 离线 数据 ， 但 是 在 很 多 场景 中 ， 数 据 不 断 产生 ， 并 且 业 务 场景 需要 实时 查询 。 加 速 层 就 是 设计 用 来 
处 理 增 量 实时 数据 的 。 


加 速 层 和 批 处 理 层 比 较 类 似 ， 对 数据 进行 计算 并 生成 实时 视图 (real-time view) ， 其 主要 的 区 别 在 于 : 
1) 加 速 层 处 理 的 数据 是 最 近 的 增 量 数据 流 ， 而 批 处 理 层 处 理 的 是 全 体 数据 集 。 


2) 为 了 效率 ， 加 速 层 接收 到 新 数据 时 将 及 时 更 新 实时 视图 ， 而 批 处 理 层 根据 全 体 离线 数据 直接 得 到 批 处 理 视图 。 加 速 层 是 
一 种 增 量 计算 ， 而 非 重 新 计算 (recomputation) 。 


3) 加 速 层 因为 采用 增 量 计 算 ， 所 以 延迟 小 ， 而 批 处 理 层 是 全 数据 集 的 计算 ， 耗 时 比较 长 。 


综 上 所 述 ， 加 速 层 是 批 处 理 层 在 实时 性 上 的 一 个 补充 ， 如 图 7-7 所 示 。 


时 间 


数据 融入 批 处 理 视图 中 





图 7-7 实时 处 理 层 的 实时 性 补充 
加 速 层 可 总 结 为 以 (C) real-time view =function (real-time view, new data) 。 
Lambda 架 构 将 数据 处 理 分 解 为 批 处 理 层 和 加 速 层 有 如 下 优点 : 


1) 容错 性 : 加 速 层 中 处 理 的 数据 不 断 写 入 批 处 理 层 ， 当 批 处 理 层 中 重新 计算 的 数据 集 包含 加 速 层 处 理 的 数据 集 后 ， 当 前 的 
实时 视图 就 可 以 丢弃 ， 这 就 意味 着 加 速 层 处 理 中 引入 的 错误 ， 在 批 处 理 层 重新 计算 时 都 可 以 得 到 修正 。 这 点 也 可 以 看 成 是 CAP 
理论 中 的 最 终 一 致 性 (Eventual Consistency) 的 体现 。 


2) 复杂 性 隔离 。 批 处 理 层 处 理 的 是 离线 数据 ， 可 以 很 好 地 掌控 。 加 速 层 采用 增 量 算法 处 理 实时 数据 ， 复 杂 性 比 批 处 理 层 要 
高 很 多 。 通 过 分 开 批 处理 层 和 加 速 层 ， 把 复杂 性 隔离 到 加 速 层 ， 可 以 很 好 地 提高 整个 系统 的 鲁 棒 性 和 可 靠 性 。 


3. 服 务 层 


批 处 理 层 通过 对 MasterDataset 执 行 查询 获得 批 处 理 视图 ， 加 速 层 通过 增 量 计算 提供 实时 视图 。Lambda 架 构 的 服务 层 用 于 
响应 用 户 的 查询 请 求 ， 合 并 批 处 理 视图 和 实时 视图 中 的 结果 数据 集 到 最 终 的 数据 集 ， 如 图 7-8 所 示 。 因 此 ， 服 务 层 的 职责 包含 : 


1) 对 批 处 理 视图 和 实时 视图 的 随机 访问 。 


2) 更 新 批 处 理 视图 和 实时 视图 ， 并 负责 结合 两 者 的 数据 ， 对 用 户 提供 统一 的 接口 。 





加 速 层 查询 







APL 报表 工具 


查询 





批 处 理 层 


图 7-8 ”加 速 层 与 批 处 理 层 的 结合 


综 上 所 述 ， 服 务 层 采 用 如 下 等 式 (D) 表示 : query=function (batch view, real-time view) 。 


[1 资料 来 源 : http://blog.csdn.net/lvsaixia/article/details/51778487。 


第 8 章 ”数据 管理 


数据 管理 (Data Management) 是 指 利用 计算 机 硬件 和 软件 技术 对 数据 进行 有 效 的 收集 、 和 存储、 处 理 和 应 用 的 过 程 。 其 目 
的 在 于 充分 有 效 地 发 挥 数据 的 作用 ， 包 括 元 数据 管理 、 数 据 结构 化 、 数 据 安全 等 内 容 。 


8.1 ”数据 管理 成 熟 度 评估 


国内 数据 治理 与 管理 已 有 近 十 年 的 实践 ， 总 体 而 言 ， 呈 现 出 轻 理 念 、 重 研发 的 特点 。 轻 理念 是 指 在 数据 管理 的 理念 和 方法 层 
面 仍然 缺乏 体系 化 、 统 一 认 知 与 最 佳 实践 ， 重 研发 则 是 重视 系统 开发 和 技术 实现 ， 但 盲目 投资 、 无 效 投资 、 重 复 投 资 严重 。 由 于 
各 方 各 级 缺乏 统一 的 认识 ， 但 又 容易 陷入 技术 的 细节 中 ， 导 致 最 后 所 产生 的 实效 有 限 。 我 们 需要 一 套 兼 具 理论 与 实践 支撑 的 数据 
管理 体系 ， 作 为 开展 数据 管理 工作 的 参考 模型 。 


在 历经 三 年 半 的 开发 实践 之 后 ，2014 年 8 月 ， 美 国 的 CM MI 研究 所 正式 推出 了 数据 管理 成 熟 度 评估 模型 (DMM ，Data 
Management Maturity) 。CMMI 研 究 所 在 基于 软件 开发 过 程 的 管理 成 熟 度 CMMI 的 方法 和 经 验 之 上 ， 结 合 众 多 知名 专家 在 数 
据 管 理 领域 的 经 验 ， 提 出 了 DMM 评 估 模 型 。 通 过 DMM 模 型 ， 企 业 能 够 定义 数据 管理 的 概念 、 术 语 和 过 程 ， 规 范 数据 管理 知识 
体系 ， 提 升 数据 的 利用 价值 ， 对 企业 数据 管理 现状 进行 诊断 ， 并 为 企业 数据 管理 的 发 展 提供 路 线 规划 。 


DMM 包 含 了 五 大 核心 过 程 域 和 一 项 支撑 流程 ， 如 图 8-1 所 示 。 其 五 大 核心 过 程 域 分 别 为 : 数据 管理 战略 、 数 据 治理 、 平 台 
和 架构 、 数 据 运 营 和 数据 质量 。 接 下 来 对 五 大 核心 过 程 进行 具体 的 介绍 。 
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图 8-1 DMM 模 型 示意 图 
注 : 资料 来 源 : http://cmmiinstitute.com/data-management-matutity。 
1. 数 据 管理 战略 


企业 制定 自己 的 数据 管理 战略 ， 意 味 着 企业 必须 建立 、 沟 通 、 论 证 和 投资 于 统一 的 数据 管理 愿景 。 数 据 管理 战略 包括 以 下 五 
个 具体 的 内 容 。 


@ 数 据 管理 战略 : 即 确定 企业 数据 管理 计划 的 目的 、 目 标 ， 制 定数 据 管 理 原则 、 业 务 价值 与 指标 ， 明 确 业务 的 优先 级 和 具体 
的 实施 路 线 。 


@ 沟 通 : 建立 数据 管理 的 沟通 策略 和 机 制 ， 确 保 业 务 、IT 数 据 管理 各 相关 方 统一 沟通 、 协 调 一 致 。 


@ 数 据 管 理 职能 : 要 求 建立 相应 的 数据 管理 组 织 架 构 ， 明 确 不 同 职位 人 员 的 职责 ， 建 立 人 员 间 的 工作 关系 ， 进 行人 员 和 资源 
的 安排 ， 制 定 高 层 管理 机 制 等 。 


@@ 业 务 案例 : 数据 管理 举措 的 投资 决策 ， 需 要 企业 以 财务 收益 为 基础 ， 进 行 详细 的 论证 。 
@ 数 据 管理 投资 : 为 数据 管理 计划 的 投资 计划 论证 ， 确 定 相 应 的 运营 指标 和 财务 指标 。 
2 数据 治理 


数据 治理 是 为 确保 企业 范围 内 各 相关 方 数据 资产 的 关键 举措 ， 也 是 对 整个 数据 决策 过 程 的 主动 参与 。 数 据 治理 包括 三 个 具体 
的 过 程 内 容 。 


@@ 治 理 管 理 : 治理 管理 是 对 整个 数据 治理 的 环节 进行 管理 ， 包 括 设立 组 织 架构 ， 选 择 治理 流程 ， 明 确 领导 能 力 及 范围 ， 确 定 
由 标 开发 和 监控 体系 。 


@ 业 务 术语 : 在 进行 数据 治理 之 前 ， 需 要 对 企业 所 使 用 的 各 类 术语 进行 核对 ， 明 确 这 些 术语 的 定义 、 属 性 ， 术 语 的 创建 和 变 
更 都 需要 遵从 相关 的 管理 。 


@@ 元 数据 管理 : 元 数据 是 描述 数据 的 数据 ， 元 数据 的 管理 包含 了 战略 制定 、 元 数据 的 获取 、 分 类 与 集成 等 。 关 于 元 数据 的 管 
理 , 我们 将 在 后 文中 进行 详细 描述 。 


3 平台 和 架构 


平台 和 架构 的 设立 ， 需 要 使 用 相关 标准 、 控 制 方式 和 工具 集 ， 用 协作 的 方式 对 目标 状态 进行 架构 设计 。 在 平台 与 架构 中 ， 包 
含 了 五 项 具体 的 过 程 。 


@ 架 构 方 法 : 即 对 整个 架构 策略 、 框 架 和 事实 标准 进行 规划 与 设计 的 方法 。 

@ 架 构 标准 : 即 建 立 数据 展示 、 访 问 和 分 发 的 标准 。 

@ 数 据 管理 平台 : 即 数据 分 发 和 集成 的 技术 和 能 力 平台 。 

@ 数 据 集成 : 即 从 多 个 数据 源 向 目标 环境 提供 数据 统一 和 集成 ， 制 定 相关 的 标准 ， 进 行 最 佳 实践 ， 制 定数 据 质量 流程 等 。 


@ 历 史 数 据 、 归 档 和 保留 : 即 管理 历史 数据 ， 包 括 历 史 数 据 的 管理 、 归 档 与 保留 需求 。 


数据 运营 是 处 理 业务 需求 和 流程 的 系统 方法 ， 目 的 是 建立 数据 资产 价值 最 大 化 。 数 据 运 营 的 内 容 包 括 三 个 过 程 域 。 

@ 数 据 需求 定义 : 这 一 阶段 需要 对 数据 需求 的 流程 与 标准 进行 开发 、 排 序 、 评 佑 与 验证 。 

@ 数 据 生命 周期 : 即 建立 数据 与 业务 流程 的 映射 。 

@ 提 供 方 管理 : 针对 内 部 和 外 部 数据 源 的 数据 获取 流程 ， 制 定 标准 化 的 流程 、 服 务 水 平 (SLA) 及 相关 管理 机 制 。 

5 数据 质量 

数据 质量 属于 业务 驱动 型 ， 是 用 于 评估 质量 、 识 别 缺陷 和 清洗 数据 的 策略 和 方法 。 数 据 的 质量 控制 包含 以 下 四 部 分 的 内 容 。 
@ 数 据 质量 战略 : 制定 数据 质量 计划 的 规划 ， 保 证 最 终 的 业务 目标 和 影响 协调 一 致 。 

@ 数 据 剖 析 : 即 对 数据 质量 、 业 务 规则 进行 评估 ， 并 寻找 提升 点 ， 分 析 已 知 问题 并 衡量 影响 和 代价 。 

@ 数 据 质量 评估 : 对 数据 质量 、 业 务 规则 的 评估 和 提升 ， 分 析 已 知 问题 ， 并 衡量 影响 和 代价 。 

@ 数 据 清洗 : 制定 清洗 数据 的 机 制 ， 分 析 数 据 问题 的 报告 ， 对 数据 问题 进行 跟踪 与 纠正 ， 评 估 数 据 问题 的 影响 和 代价 。 
6. 支 撑 流 程 

支撑 流程 是 评估 业务 动因、 流程 的 系统 化 方法 ， 包 括 以 下 五 项 内 容 。 

@@ 衡 量 与 分 析 : 为 数据 管理 计划 中 的 每 个 过 程 域 建 立 并 报告 指标 ， 统 计 分 析 数 据 ， 以 支持 绩效 里 程 碑 的 管理 。 


@ 流 程 管理 : 包含 从 数据 创建 、 分 发 到 结束 的 使 用 全 过 程 的 策略 、 流 程 和 标准 的 管理 和 执行 。 


@ 流 程 质量 管理 : 对 流程 质量 进行 评估 和 审计 ， 确 保 在 所 有 数据 管理 过 程 域 的 高 质量 执行 。 
@ 风 险 管理 : 对 风险 进行 识别 、 分 类 、 管 理 ， 缓 解数 据 管 理 计划 中 的 业务 和 技术 风险 。 


@ 配 置 管理 : 建立 和 维护 数据 管理 工作 成 果 的 完整 性 ， 管 理 版 本 。 


8.2 ”元 数据 管理 


元 数据 管理 是 关于 元 数据 的 创建 、 存 储 、 整 合 与 控制 等 一 整套 流程 的 集合 ， 以 实现 轻松 访问 高 质量 的 元 数据 ， 并 使 元 数据 能 
支持 多 种 主题 应 用 。 


元 数据 的 核心 作用 是 加 强 对 数据 的 理解 。 元 数据 能 够 完整 地 记录 背景 、 历 史 和 起 源 ， 并 进行 文档 化 ， 减 少 培训 成 本 ， 降 低 员 
工 流失 的 影响 。 此 外 ， 元 数据 也 能 识别 并 减少 元 余数 据 和 流程 ， 减 少 重复 工作 和 对 元 余 、 过 期 、 不 正确 数据 的 使 用 ， 提 高 战略 信 
息 价值 ， 帮 助 做 出 更 有 效 的 决策 。 元 数据 还 能 够 帮助 业务 人 员 快 速 找到 正确 的 信息 ， 减 少 研究 时 间 ， 同 时 弥合 业务 用 户 与 IT 人 员 
之 间 的 分 层 ， 方 便 团 队 间 共 享 工作 成 果 ， 提 升 用户 对 IT 系统 数据 的 信心 。 


之 前 我 们 提 到 过 ， 元 数据 是 “关于 数据 的 数据 ”， 它 是 一 种 描述 性 标签 ,描述 了 数据 (如 : 数据 库 、 数 据 元 素 、 数 据 模 
型 ) 、 概 念 (如 : 业务 流程 、 应 用 系统 、 软 件 代 码 、 技 术 架 构 ) 以 及 它们 之 间 的 (联系) 关系 。 一 个 组 织 内 部 的 任何 可 命名 的 事 
物 都 是 一 个 元 数据 的 主要 来 源 ， 此 外 还 能 通过 桥接 软件 来 访问 其 他 元 数据 存储 库 。 


元 数据 战略 是 有 关 企 业 元 数据 管理 目标 的 说 明 ， 同 时 也 作为 开发 团队 的 参照 框架 。 元 数据 战略 是 基于 一 系列 定义 好 的 组 成 部 
分 建立 起 来 的 ， 其 主要 关注 点 是 理解 企业 的 关键 业务 驱动 力 、 问 题 和 信息 需求 并 达成 共识 ， 从 而 开展 企业 元 数据 管理 项 目 。 元 数 
据 战 略 定 义 了 企业 的 元 数据 架构 ， 定 义 了 满足 业务 目标 所 需 的 技术 和 流程 ， 同 时 建立 了 一 系列 分 阶段 严谨 的 实施 步骤 ， 以 帮助 企 
业 实 现 未 来 愿景 。 


具体 而 言 ， 企 业 的 元 数据 管理 包括 以 下 步骤 。 
1. 理 解 元 数据 需求 


理解 元 数据 需求 包括 理解 业务 用 户 与 技术 用 户 的 需求 。 理 解 业 务 用 户 的 需求 ， 能 够 加 深 对 业务 内 各 类 数据 的 理解 ， 从 而 更 好 
地 利用 数据 。 例 如 ， 在 查看 报表 /指标 时 ， 需 要 理解 报表 /指标 的 含义 、 用 途 、 数 据 来 源 等 信息 。 理 解 技术 用 户 的 需求 ， 是 为 了 更 
好 地 为 业务 用 户 提 出 的 需求 提供 必要 的 支持 。 


2. 定 义 元 数据 架构 


元 数据 的 管理 环境 包含 了 以 下 架构 层次 : 元 数据 创建 /获取 ， 元 数据 整合 ， 一 个 或 多 个 元 数据 存储 库 ， 元 数据 交付 ， 元 数据 
应 用 和 元 数据 管理 /控制 。 其 中 元 数据 存储 库 的 建设 ， 应 根据 需求 选择 集中 式 、 分 布 式 或 渴 合式 的 技术 架构 实施 。 


3. 开 发 和 维护 元 数据 标准 : CWM 元 数据 


CWM 模 型 是 OMG 组 织 定义 的 数据 仓库 和 相关 系统 的 国际 元 数据 标准 ，CWM 标 准 的 目的 在 于 使 数据 仓库 和 商业 智能 软件 的 
元 数据 在 异 构 分 布 的 数据 分 析 工 具 、 数 据 仓库 平台 、 元 数据 存储 等 系统 之 间 交 互 ， 如 图 8-2 所 示 。 


管理 层 仓库 过 和 仓库 操作 
分 析 层 | 。 转换 数据 挖 据 | 信息 可 视 化 ”| ”业务 术语 
资源 层 关系 型 资源 。 | 记录 型 多 维 XML 


图 8-2 CWM 公 共 仓 库 元 模型 





4. 标 准 化 元 数据 的 评估 指标 


元 数据 的 评估 指标 应 从 以 下 几 个 方面 进行 考量 一 一 元 数据 存储 库 的 完整 性 、 元 数据 文档 的 质量 、 元 数据 服务 数据 合 规 性 、 
元 数据 管理 成 熟 度 、 元 数据 存储 库 可 用 性 ， 以 明确 不 同 管理 人 员 的 职责 与 范围 。 





5. 实 现 受 控 的 元 数据 环境 


在 试验 项 目 中 ， 需 要 理解 受 控 的 元 数据 环境 并 进行 概念 验证 。 试 验 项 目 应 具有 一 定 的 复杂 度 ， 包 括 需求 评估 、 战 略 制定 、 技 
术 评估 选 型 和 初始 实施 周期 。 在 后 续 的 项 目 之 中 ， 需 要 包含 路 线 图 规划 、 人 员 培 训 、 组 织 变革 和 后 续 发 布 计划 。 在 方法 论 整 合 
上 ， 需 要 将 元 数据 项 目 与 信息 系统 、 信 息 技术 开发 方法 论 相 整 合 。 


6 .创建 和 维护 元 数据 


添加 元 数据 等 操作 可 以 由 授权 用 户 和 程序 以 手工 方式 完成 ， 也 可 以 通过 元 数据 创建 和 更 新 的 工具 定期 扫描 并 更 新 存储 库 。 最 
后 需要 采用 审计 流程 以 验证 各 项 操作 活动 并 报告 异常 。 


高 质量 的 元 数据 能 够 增强 企业 层面 的 信息 ， 对 数据 资源 的 价值 形成 一 致 的 理解 ， 将 企业 范围 内 的 元 数据 转化 为 知识 。 
7 整合 元 数据 


整合 元 数据 是 在 企业 范围 内 采集 并 存储 元 数据 的 过 程 ， 也 包括 企业 外 部 数据 的 元 数据 。 把 元 数据 来 源 库 中 抽取 到 的 元 数据 ， 
与 相关 的 业务 元 数据 和 技术 元 数据 进行 整合 ， 最 终 存 储 到 元 数据 存储 库 中 。 


元 数据 的 抽取 有 多 种 方式 ， 包 括 应 用 软件 自 带 接口 、 第 三 方 元 数据 获取 接口 与 自 定义 开发 程序 。 


8. 管 理 元 数据 存储 库 





对 存储 库 的 控制 意味 着 对 元 数据 技术 人 员 执 行 的 元 数据 迁移 和 存储 库 更 新 活动 进行 控制 。 这 些 措施 的 本 质 是 管理 性 的 ， 包 括 
监视 、 响 应 报告 、 告 警 、 任 务 日 志和 解决 存储 库 环境 中 的 各 类 问题 。 数 据 操作 和 接口 维护 需要 以 控制 措施 为 标准 。 


9. 分 发 和 交付 元 数据 
将 元 数据 从 存储 库 分 友 到 最 终 用 户 和 其 他 用 户 时 ， 需 要 使 用 元 数据 的 应 用 或 工具 进行 元 数据 交付 。 
10. 查 询 、 报 告 和 分 析 元 数据 


元 数据 存储 库 应 该 具有 前 端 应 用 程序 ， 并 支持 查询 和 获取 功能 ， 从 而 满足 以 上 各 类 数据 资产 管理 的 需要 。 提 供给 业务 用 户 的 
应 用 界面 和 功能 与 提供 给 技术 和 开发 人 员 的 界面 和 功能 应 各 有 侧重 。 以 技术 人 员 为 例 ， 他 们 会 更 加 关注 有 助 于 新 功能 开发 的 变更 
影响 分 析 ， 或 有 助 于 解决 数据 仓库 和 商务 智能 项 目 中 数据 定义 问题 的 血缘 关系 分 析 报 告 。 


8.3 ”数据 治理 


数据 治理 (Data Goverance) 也 称 作 数据 管控 、 数 据 管 治 。 根 据 国际 数据 管理 协会 的 定义 ，“ 数 据 治理 是 对 数据 资产 的 管 
理 活动 形式 权利 和 控制 的 活动 集合 规划、 监控 和 执行 ) ”。 数 据 治理 是 在 高 层次 上 执行 数据 管理 专员 制度 (Data 
Stewardship) 。 完 成 数据 治理 的 最 有 效 的 方式 是 通过 连续 性 的 计划 和 持续 的 改进 。 


数据 治理 可 以 被 认为 是 对 数据 管理 的 管理 。 数 据 管 理 (Data Management) 是 规划 、 控 制 和 提供 数据 和 信息 资产 ， 发 挥 数 
据 和 信息 资产 的 价值 。 而 数据 治理 (Data Governance) 是 对 数据 资产 管理 活动 行使 权力 和 控制 的 活动 集合 (规划 、 监 控 和 执 
行 ) 。 数 据 治理 能 指导 其 他 数据 管理 职能 如 何 执行 。 数 据 治理 与 数据 管理 之 间 是 广义 与 狭义 的 区 别 ， 我 们 将 “数据 治理 ”认为 是 
对 “数据 管理 ”的 管理 ， 此 时 ， 数 据 治理 制定 正确 的 原则 、 政 策 、 流 程 、 操 作 规程 确保 以 正确 的 方式 对 数据 和 信息 进行 管理 。 


在 数据 治理 中 ， 有 4P 原 则 ， 即 原则 (Principle) 、 政 策 (Policy) 、 流 程 (Process) 与 操作 规程 (Procedure) 。 


原则 (Principle) 是 最 基础 的 法 规 、 前 提 、 假 设 、 理 念 ， 是 对 行为 的 规则 或 准则 ; 政策 (Policy) 即 在 企业 级 设立 目标 ， 明 
确 需要 做 什么 ; 流程 (Process) 是 对 任务 的 高 阶 描述 ， 确 定 每 一 个 任务 的 负责 方 ， 操 作 规程 (Procedure) 是 详细 地 描述 如 何 
完成 每 个 任务 。 


例如 ， 当 我 们 将 “一 致 性 ”作为 数据 治理 的 原则 时 ， 在 政策 上 ， 就 意味 着 企业 不 允许 存在 重复 的 数据 元 素 ， 在 流程 上 ， 需 要 
业务 数据 管理 专员 在 业务 数据 字典 中 查询 数据 元 素 定义 、 去 重 、 创 建新 的 数据 元 素 ; 在 具体 的 操作 规程 上 ， 将 涉及 如 何 查 询 、 认 
定 重 复 的 标准 ， 如 何 去 重 ， 如 何 创建 新 的 数据 元 素 。 


当 企 业 进行 数据 治理 时 ， 需 要 注意 以 下 要 点 。 
1 数据 治理 原则 


数据 治理 原则 是 最 基础 的 法 规 、 前 提 、 假 设 、 理 念 ， 是 对 行为 的 规则 或 准则 。 在 制定 企业 数据 原则 后 ， 需 要 各 业务 达成 共 
识 ， 共 同 遵 守 。 常 见 的 数据 治理 原则 如 下 : 


表 8-1 基于 COBIT 改 写 的 数据 治理 原则 


序号 原则 名 称 关键 内 容 


I 资产 数据 是 资产 
责任 人 人 有 责 

3 数据 战略 、 与 业务 / IT 战略 一 致 

4 获取 目的 是 为 了 业务 价值 ,平衡 长 短期 收益 
5 质量 保证 质量 

6 保证 安全 、 隐 私 要 求 ， 监 管 合 规 

关注 人 与 数据 相关 的 行为 


2. 制 定数 据 政策 


数据 政策 包括 对 数据 治理 的 管理 意图 的 简要 说 明和 相关 基本 规则 ， 这 些 规则 贯穿 数据 和 信息 的 创造 、 获 取 、 整 合 、 安 全 、 质 
量 和 使 用 的 全 过 程 。 数 据 政策 贯穿 了 整个 组 织 ， 描 述 了 什么 可 以 做 ， 什 么 不 该 做 。 


订 、 


外 ， 


3. 制 定数 据 架 构 


在 设计 企业 数据 架构 时 ， 要 注意 企业 数据 模型 与 关键 业 务 战略 、 流 程 、 组 织 和 系统 保持 一 致 性 。 在 企业 数据 架构 的 开发 、 修 
审批 、 发 布 的 过 程 中 ， 需 要 明确 各 参与 方 及 其 职责 、 流 程 。 


数据 架构 的 范围 既 包括 企业 数据 模型 ， 又 包括 数据 技术 架构 、 数 据 整合 架构 、 数 据 仓库 和 商务 智能 架构 及 数据 源 架 构 。 此 
还 有 可 能 包括 信息 内 容 管理 架构 和 企业 分 类 法 。 


4 .制定 数据 标准 和 规程 
在 进行 数据 治理 时 ， 企 业 需 要 制定 数据 标准 和 规程 的 标准 ， 这 些 内 容 包括 但 不 限于 以 下 几 点 : 
1) 数据 建 模 和 数据 架构 标准 ， 包 括 数据 的 命名 规范 、 定 义 标准 、 标 准 域 、 标 准 缩写 等 。 


2) 采集 、 维 护 和 整合 的 标准 业务 和 技术 元 数据 。 


— 


3) 数据 模型 管理 准则 和 规程 。 


— 


4) 元 数据 整合 和 使 用 规程 。 


— 


5) 数据 库 恢复 和 业务 连续 性 、 数 据 库 性 能 、 数 据 保存 和 外 部 数据 采集 标准 。 


— 


6) 数据 安全 标准 和 规程 。 


— 


7) 参考 数据 管理 控制 规程 。 


— 


8) 匹配 / 合并 和 数据 清理 标准 及 规程 。 


— 


9) 商务 智能 标准 及 规程 。 


10) 企业 内 容 管理 标准 及 规程 ， 包 括 企业 分 类 法 的 使 用 ， 对 法 律 取 证 和 档案 、 电 子 邮箱 保留 ， 对 电子 签名 、 报 告 格式 标 


、 报 告 分 发 方式 等 的 支持 。 


5. 法 规 遵从 


合 规 性 往往 是 实施 数据 管理 的 初始 原因 。 数 据 治理 应 实施 适当 的 控制 措施 ， 以 确保 记录 和 监控 数据 相关 的 法 规 得 到 遵从 。 数 


治理 组 织 与 其 他 业务 和 技术 的 领导 需要 共同 制定 法 规 遵 从 的 策略 与 方案 。 


6. 问 题 管 理 

数据 治理 过 程 中 会 涉及 许多 问题 ， 这 些 数据 问题 大 致 可 以 分 为 以 下 几 类 : 
1) 数据 质量 问题 。 

2) 数据 命名 和 定义 冲突 。 

3) 业务 规则 冲突 和 澄清 。 

4) 数据 安全 、 隐 私 和 保密 问题 。 

5) 法 规 未 能 遵从 问题 。 


6) 策略 、 标 准 、 架 构 和 规程 的 符合 问题 。 


7) 冲突 的 策略 、 标 准 、 架 构 和 规程 。 
8) 数据 和 信息 中 的 相关 者 利益 冲突 。 
9) 组 织 和 文化 变革 的 管理 问题 。 

10) 关于 数据 治理 规程 和 决策 权 的 问题 。 
11) 数据 共享 协议 的 谈判 和 评审 。 


这 些 问题 涉及 数据 治理 的 许多 方面 ， 不 过 其 中 80% ~ 85% 的 问题 能 够 在 操作 层 由 数据 管理 团队 解决 ，20% 以 下 的 问题 需要 由 
战术 层 的 数据 管理 调度 指导 委员 会 解决 ， 至 多 有 5% 的 问题 需要 由 战略 层 的 数据 管理 委员 会 解决 。 


7. 数 据 管理 项 目 


数据 管理 举措 (initiative) 旨 在 实施 或 改善 整体 的 数据 管理 职能 ， 它 涉及 企业 范围 的 利益 ， 需 要 由 跨 职能 的 数据 治理 委员 会 
发 起 。 


其 他 的 项 目 和 项 目 群 (program/project) 一 般 集中 于 一 个 特定 的 数据 管理 职能 。 这 些 管理 可 能 包括 数据 架构 管理 、 数 据 仓 
库 和 商务 智能 管理 、 参 考 数据 和 主 数据 管理 、 元 数据 管理 与 数据 质量 管理 等 。 


数据 管理 项 目 需要 遵循 项 目 管理 的 标准 ， 从 章程 到 具体 的 业务 案例 ， 对 过 程 进 行 监控 ， 对 成 果 进 行 评估 与 跟踪 。 企 业 还 可 以 
配合 其 他 项 目 (如 : ERP、CRM 等 ) 开展 数据 管理 项 目 。 


8 .数据 资产 评 佑 


数据 和 信息 资产 具有 有 形 或 无 形 的 商业 价值 ， 是 实 实在 在 的 组 织 资产 。 在 对 数据 资产 进行 评 佑 时， 一般 有 以 下 两 种 方法 : 一 
种 是 确定 从 数据 使 用 所 带 来 的 直接 或 间接 商业 利益 ; 另 一 种 是 通过 识别 其 损失 的 代价 来 评定 其 价值 。 如 果 所 提供 的 是 独家 资产 ， 
那么 可 以 评估 竞争 对 手 可 能 为 这 些 资产 支付 多 少 。 


9. 沟 通 与 推广 


数据 治理 是 企业 内 部 事项 ， 但 同样 需要 沟通 与 推广 ， 以 保证 各 项 措施 更 好 地 实施 。 一 般 而 言 ， 可 以 设立 全 员 职责 ， 明 确 各 级 
数据 管理 专员 与 数据 管理 专业 人 员 。 此 外 组 织 可 以 指定 专门 的 一 两 个 人 负责 沟通 计划 。 具 体 的 沟通 形式 丰富 多 样 ， 比 如 为 数据 管 
理 项 目 建 立 一 个 内 部 网 站 ， 通 过 企业 内 部 或 其 他 网 站 发 布 公告 ， 在 部 门 会 议 上 进行 宣传 与 公告 等 ， 各 种 形式 都 是 可 取 的 。 


健全 而 完善 的 数据 治理 应 该 像 财 务 控制 一 样 ， 融 入 企业 的 日 常 业务 活动 中 ， 成 为 业务 机 体 的 一 部 分 ， 而 不 是 作为 特定 项 目 而 
存在。 不 过 ， 企 业 应 该 保留 一 个 比较 精简 的 数据 治理 部 门 。 


8.4 数据 质量 管理 


在 2010 年 Gartner 的 《数据 质量 工具 采纳 及 使 用 情况 的 研究 》 报 告 中 曾 提 到 ， 针 对 260 多 个 开展 数据 质量 改进 项 目的 组 织 的 
研究 显示 ，36% 的 参与 者 估计 ， 由 于 数据 质量 问题 ， 他 们 每 年 的 损失 超过 100 万 美元 。 常 见 的 数据 质量 问题 涉及 数据 的 完整 性 、 
规范 性 、 一 致 性 、 准 确 性 、 重 复 性 与 及 时 性 。 


数据 质量 管理 是 通过 计划 、 实 施 和 控制 活动 ， 运 用 质量 管理 技术 度量 、 评 估 、 改 进 和 保证 数据 的 恰当 使 用 。 数 据 质量 管理 是 


组 织 变革 管理 中 的 一 项 关键 的 支撑 流程 ， 业 务 重 点 的 变化 、 公 司 的 业务 整合 战略 以 及 并 购 与 合作 ， 都 对 IT 职能 提出 更 高 要 求 ， 包 
括 整 合 数据 源 ， 创 建 一 致 的 数据 副本 ， 交 互 提 供 数 据 或 整合 数据 。 


在 数据 质量 管理 中 ， 我 们 以 戴 明 质量 环 为 基础 ， 构 筑 数 据 质量 管理 循环 ， 如 图 8-3 所 示 。 


Monitor 


~ 和 
硬 控 





图 8-3 ”数据 质量 管理 循环 
Plan: 即 制定 数据 质量 现状 评估 计划 和 识别 数据 质量 度量 关键 指标 。 
Deploy: 实施 度量 和 提升 数据 质量 的 流程 。 
Monitor: 监控 和 度量 根据 业务 预期 定义 的 数据 质量 水 平 。 
Act: 执行 解决 数据 质量 问题 的 行动 方案 ， 以 提升 数据 质量 从 而 更 好 地 满足 业务 预期 。 


数据 质量 管理 是 一 个 持续 的 过 程 ， 包 括 数据 质量 管理 保障 、 提 升 数 据 质量 意识 以 及 数据 质量 的 持续 监测 和 提升 ， 如 图 8-4 所 


| 
引 


设计 数据 质量 管理 相关 的 目标 、 组 织 、 流 程 和 方法 ， 能 够 帮助 指导 数据 质量 工作 的 开展 。 在 设计 并 实施 数据 质量 管理 保障 
时 ， 须 包含 以 下 几 方面 的 内 容 : 


1) 确定 愿景 和 目标 ， 即 指明 数据 质量 管理 的 目标 和 原则 。 
2) 建立 组 织 和 流程 ， 即 定义 数据 质量 管理 过 程 中 的 关键 角色 ， 主 要 职责 与 管理 流程 ， 规 范 数据 质量 管理 的 活动 。 
3) 设立 质量 规则 ， 在 组 织 内 部 建立 评价 数据 质量 的 主要 维度 和 指标 ， 并 对 相关 内 容 进行 描述 。 


4) 进行 沟通 : 在 建立 数据 质量 的 相关 制度 、 标 准 、 工 具 等 之 后 ， 需 要 对 相关 内 容 进 行 宣传 与 培训 ， 力 保 相关 内 容 能 够 贯彻 


数据 质量 保障 


数据 质量 提升 


提升 数据 质量 意识 


图 8-4 ”数据 质量 管理 示意 图 





按照 活动 类 型 ， 数 据 质量 工具 可 以 划分 为 分 析 、 清 洗 、 改 革 与 监控 四 类 。 具 体 的 数据 质量 工具 主要 包括 数据 剖析 工具 、 解 析 
和 标准 化 工具 、 数 据 转换 工具 、 身 份 识别 和 匹配 工具 、 改 善 和 报告 工具 。 


不 同 阶段 的 数据 有 不 同 的 数据 管理 需求 。 对 于 历史 数据 ， 主 要 进行 事后 治理 ， 此 时 侧重 数据 的 清理 ， 按 业务 系统 或 者 主题 分 
批 对 数据 进行 剖析 、 清 洗 ， 提 高 既 有 数据 的 质量 。 对 于 当期 数据 ， 主 要 进行 事 中 监控 ， 侧 重 面向 当前 的 数据 ， 根 据 数据 质量 检查 
规则 对 数据 质量 进行 持续 的 、 周 期 性 的 监测 。 对 于 未 来 的 数据 ， 主 要 进行 事前 防范 ， 侧 重 面向 未 来 的 数据 需求 ， 要 防 患 于 未 然 ， 
通过 业务 流程 优化 、 原 系统 改造 等 方式 保证 未 来 数据 质量 。 


1 数据 质量 事后 处 理 


数据 质量 事后 处 理 的 流程 一 般 可 以 分 为 四 个 阶段 : 发 起 清理 、 制 定 规则 、 分 析 间 题 根源 及 影响 、 制 定 和 实施 清理 方案 。 


在 发 起 清理 阶段 ， 需 要 先 识别 已 知 数据 问题 及 相关 方 ， 评 估 和 明确 数据 质量 清理 范围 ， 表 制定 数据 质量 清理 、 提 升 工 作 计 
划 。 之 后 需要 获取 相关 资源 进行 风险 评估 。 


在 制定 规则 中 ， 需 要 先 了 解 目标 数据 的 概况 ， 从 中 识别 出 关键 数据 项 。 之 后 需要 明确 数据 标准 及 业务 规则 ， 对 数据 质量 检查 
规则 进行 汇总 并 检验 其 可 行 性 ， 最 后 将 这 些 数 据 质量 检查 规则 转化 为 技术 实现 。 


在 分 析 问 题 根源 和 影响 时 ， 首 先 应 基于 数据 质量 检查 规则 分 析 数 据 、 校 验 数据 ， 之 后 分 析 数 据 质量 问题 产生 的 原因 ， 分 析 其 
造成 的 影响 。 


在 制定 、 实 施 清理 方案 时 ， 需 要 先 制定 数据 质量 问题 清洗 解决 方案 ， 搭 建 数据 清理 环境 ， 之 后 执行 整改 方案 并 评 佑 整体 方案 
的 执行 结果 。 当 整个 执行 结果 并 不 如 人 意 时 ， 需 要 折 回 到 第 二 步 ， 重 新 制定 规则 。 


2. 数 据 质量 事 中 处 理 


数据 质量 事 中 处 理 是 一 种 即时 性 的 活动 ， 通 过 输入 关键 的 数据 标准 与 元 数据 ， 生 成 数据 质量 状态 报告 ， 积 累 数据 质量 管理 知 
识 与 经 验 。 数 据 质 量 事 中 处 理 是 连接 事后 治理 与 事前 防范 的 桥梁 ， 是 对 间 题 进行 快速 的 处 理 。 


通过 回顾 事后 治理 ， 我 们 可 以 制定 一 套 监控 检 核 方案 ， 根 据 这 套 方案 进行 实时 监控 。 根 据 往 期 的 数据 问题 ， 结 合 监控 数据 ， 
可 以 对 问题 进行 快速 的 处 理 。 而 本 次 的 问题 处 理 又 能 为 下 一 次 的 数据 治理 提供 新 的 监控 检 核 方案 ， 形 成 一 个 良性 循环 。 


监控 检 核 与 
| 和 N 
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问题 快速 处 理 
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图 8-5 ”数据 质量 事 中 处 理 流程 图 
3. 数 据 质 量 事 前 处 理 


数据 质量 事前 处 理 主要 是 面向 未 来 的 ， 在 业务 需求 驱动 和 问题 解决 驱动 下 ， 采 取 事 前 防范 措施 ， 保 证 未 来 的 数据 质量 。 通 过 
分 析 问 题 和 业务 需求 ， 提 出 可 能 的 事前 防范 措施 ， 例 如 原 系统 改造 、 业 务 流程 优化 和 数据 处 理 优化 等 。 在 对 业务 流程 、 数 据 处 理 
进行 改善 与 优化 时 ， 也 需要 对 管理 制度 、 数 据 质 量 检 查 规则 进行 相应 优化 。 数 据 质量 事前 处 理 可 按照 事前 防范 启动 、 问 题 分 析 、 
方案 设计 与 方案 实施 四 个 步骤 进行 。 


在 确定 启动 事前 防范 后 ， 需 要 明确 业务 环节 及 应 用 位 置 ， 为 其 指定 范围 ， 开 始 筹备 资源 。 
问题 的 分 析 可 参考 之 前 的 数据 质量 事后 处 理 时 的 方法 ， 对 可 能 出 现 的 问题 进行 分 析 ， 剖 析 问 题 的 根源 以 及 可 能 带 来 的 影响 。 


在 方案 设计 时 需要 提前 选择 想 要 优化 的 内 容 ， 并 为 之 制定 优化 方案 。 一 般 而 言 ， 数 据 标准 体系 、 数 据 质量 规范 、 业 务 流程 设 
计 都 可 以 根据 往 期 的 分 析 结 果 进 行事 前 优化 。 根 据 这 些 需 要 优化 的 目标 ， 开 始 设 计 业 务 流程 优化 方案 、 数 据 处 理 流程 优化 方案 与 


原 系统 改造 优化 方案 。 最 后 的 一 步 也 就 是 将 这 些 方案 付 诸 实践 。 


8.5 ”参考 数据 与 主 数据 管理 


主 数据 管理 是 对 主 数据 值 进行 控制 ， 以 实现 跨 系统 地 一 致 、 共 享 、 上 下 文 相 关 地 使 用 主 数据 ， 同 时 还 需 对 核心 业务 实体 的 真 
实情 况 的 最 准确 、 及 时 和 相关 的 版 本 进行 控制 。 参 考 数据 管理 是 对 定义 的 数据 域 值 进行 控制 ， 并 且 对 准确 、 及 时 和 相关 参考 数据 
的 一 致 、 共 享 使 用 进行 控制 ， 以 进行 数据 分 类 和 目录 整编 。 


1. 概 念 与 定义 
(1) 主 数据 定义 


主 数据 是 关于 关键 业务 实体 的 权威 的 、 最 准确 的 数据 ， 这 些 实体 为 业务 交易 提供 关联 环境 ， 主 数据 值 被 认为 是 “黄金 ” 数 
据 。 与 参考 数据 不 同 的 是 ， 主 数据 通常 不 受 限 于 预先 定义 的 域 值 。 在 对 主 数据 进行 判定 时 ， 可 参考 下 表 中 的 几 条 重要 判断 标准 。 


表 8-2 主 数 据 判 断 标准 


主 数据 判断 标准 | 解释 | 标准 值 


是 否 独立 存在 主 数据 应 可 独立 存在 ， 不 依赖 于 其 他 对 象 是 
是 否 由 不 同业 务 部 门 共 孚 主 数据 和 一 般 作为 不 同业 务 部 门 之 间 的 共享 数据 是 
主 数据 一 般 是 业务 操作 的 主要 对 象 ， 不 随 业务 操作 





是 否 属于 业务 操作 的 主要 对 象 。 |、 让 开 且 全 是 
是 否 存在 多 个 特 征 属性 (并非 编 友 )| 站 是 
es 主 数据 的 变化 主要 依赖 于 业务 实体 自身 属性 变化 ， 
人 不 依赖 于 业务 操作 ， 而 业务 数据 则 不 然 下 

虽然 主 数据 的 变化 应 该 少 于 交易 数据 ， 但 是 完全 不 
是 否 完全 不 变化 变化 的 数据 元 素 不 应 该 判定 为 主 数据 ， 至 少 不 需 要 实行 | 否 
主 数据 管理 
通常 主 数据 会 在 长 时 间 内 被 使 用 ， 它 的 生命 周期 较 
是 否 较 长 生命 周期 长 ， 因 此 数据 元 素 的 生命 周期 可 以 用 来 作为 判定 它 是 否 | ”是 
是 主 数据 的 标准 之 一 
从 若是 否 是 主 数据 主 数 据 是 实体 集 ， 而 不 是 属性 集 守 


根据 主题 域 进行 划分 ， 常 见 的 主 数 据 域 有 当事人 主 数 据 (Parties) 、 财 务 主 数据 (Financial structures) 、 产 品 主 数据 
(Products) 。 


当事人 主 数据 一 般 包 括 客 户 数据 、 员 工 和 组 织 机 构 数 据 、 供 应 商 数据 。 以 客户 数据 为 例 ，CRM 能 够 实现 客户 数据 的 
MDM (也 称 CDI) 和 其 他 业务 功能 。CRM 的 一 项 重要 功能 是 识别 同一 客户 的 重复 、 宛 余 以 及 矛盾 的 数据 。 


财务 主 数据 包括 有 天 业务 单元 、 成 本 中 心 、 利 润 中 心 、 总 账 账户 、 预 算 、 计 划 和 项 目的 数据 。 财 务 主 数据 模拟 往往 是 商务 智 
能 报告 、 分 析 和 规划 模块 的 一 部 分 ， 重 点 是 层级 管理 。 


产品 主 数据 可 能 专注 于 一 个 组 织 的 内 部 产品 或 服务 ， 或 整个 行业 (包括 竞争 对 手 ) 的 产品 和 服务 。 产 品 主 数据 包括 的 相关 信 


息 可 能 有 装配 组 件 清单 、 零 件 /原料 的 使 用 、 版 本 、 人 修补、 价格、 折扣 条 款 、 配 套 产 品 、 手 册 、 设 计 文 件 和 图 像 (CAD 图 纸 ) 、 
配方 (制造 说 明 ) 和 标准 操作 规程 等 。 产 品 主 数据 可 由 专用 系统 或 ERP 应 用 来 实施 。 


(2) 主 数据 属性 的 标准 化 定义 


主 数 据 内 容 的 标准 化 包含 两 方面 的 含义 ， 就 内 容 而 言 ， 主 数据 的 值 必须 是 全 面 的 ， 最 权威 的 ;就 属性 而 言 ， 主 数据 的 属性 必 
须 包 含 相关 方 关注 的 核心 属性 。 


在 属性 的 标准 化 定义 过 程 中 ， 需 要 从 各 个 源 系 统 进行 归纳 、 总 结 ， 定 义 主 数 据 的 属性 ， 同 时 对 属性 值 域 进行 标准 化 。 属 性 的 
标准 化 还 需要 定义 每 个 属性 的 权威 数据 源 ， 认 责 管 理 部 门 与 访问 权限 。 


(3) 参考 数据 


参考 数据 是 用 于 将 其 他 数据 进行 分 类 或 目录 整编 的 数据 。 业 务 规则 通常 规定 参考 数据 是 几 个 允许 值 之 一 。 允 许 值 的 数据 集 是 
一 个 值 域 。 每 一 个 数据 值 (代码 ) 通常 有 标签 、 业 务 定义 或 使 用 描述 。 一 般 而 言 ， 同 一 概念 域 可 以 包括 多 组 参考 数据 的 值 域 ， 例 
如 ,将 “省 份 ”作为 概念 域 ， 那 么 其 值 域 既 可 以 是 全 称 (北京 、 上 海 、 云 南 ) ， 又 可 以 是 简称 ( 京 、 沪 、 滇 ) 。 


参考 数据 通常 在 应 用 程序 中 作为 值 列 表 出 现 ， 也 经 常 在 内 容 管理 引擎 中 作为 搜索 标准 出 现 。 对 在 非 结构 化 的 文档 中 出 现 的 参 
考 数 据 经 常 通 过 建立 索引 来 加 快 搜索 。 


2. 主 数据 管理 活动 


主 数 据 管理 是 一 套 定义 和 维护 流程 ， 涉 及 如 何在 整个 企业 内 创建 、 整 合 、 维 护 并 使 用 主 数据 。 一 般 而 言 ， 主 数据 管理 活动 涉 
及 六 大 问题 ， 如 图 8-6 所 示 。 


. 数据 质量 : 重点 关注 跨 系 统 中 的 数据 一 致 性 。 

. 数据 标准 : 即 定义 主 数据 相关 的 数据 属性 ， 并 且 维 护 主 数据 值 的 权威 。 
. 数据 流程 : 即 制定 各 类 主 数据 的 管理 流程 。 

. 数据 安全 : 涉及 每 类 数据 及 其 属性 的 访问 和 修改 权限 。 

. 数据 架构 : 即 定义 如 何 进行 数据 的 清洗 、 转 换 ， 并 从 中 获取 黄金 数据 。 
. 数据 治理 : 即 定 义 相关 的 规范 、 流 程 和 人 员 对 主 数据 进行 持续 的 管理 。 


在 技术 平台 和 数据 架构 之 外 ， 主 数据 管理 还 需要 制定 规范 的 数据 管理 制度 、 流 程 和 组 织 进行 支撑 ， 并 且 需 要 持续 的 进行 监控 
和 管理 ， 才 可 以 实现 “黄金 ”数据 的 目标 。 


数据 治理 效 据 标准 


数据 染 构 效 据 流程 


数据 安全 


图 8-6 主 数 据 管理 活动 的 内 容 


在 对 参考 数据 与 主 数据 进行 整合 时 ， 需 要 重点 关注 横向 业务 协同 、 流 程 整合 、 跨 应 用 的 、 企 业 级 的 主 数据 需求 。 在 集团 -分 
子 公 司 的 模式 下 ， 应 关注 业务 职能 纵向 的 主 数据 标准 化 和 治理 需求 。 一 般 而 言 ， 对 数据 质量 问题 的 根本 原因 进行 分 析 时 ， 往 往 能 
从 中 识别 出 主 数据 管理 的 需求 。 在 对 参考 数据 与 主 数据 进行 整合 时 ， 最 好 每 次 只 关注 一 个 主题 域 ， 并 注意 进行 调整 。 


要 想 更 好 地 实现 对 参考 数据 与 主 数据 的 管理 ， 需 要 对 这 些 数据 的 来 源 进行 跟踪 ， 确 定数 据 的 起 始 及 中 间 的 元 数据 库 、 文 件 、 
应 用 和 组 织 。 在 必要 时 ， 需 要 创造 能 够 维护 这 些 数 据 的 岗位 。 


3. 主 数据 管理 系统 (SOR) 


记录 系统 (System of Record，SOR) 是 某 个 主题 域 ( 主 数据 或 交易 数据 ) 的 “黄金 ”数据 的 权威 数据 源 系统 。 常 见 的 主 
数据 管理 系统 架构 可 以 分 为 以 下 四 种 : 


. 交易 型 Hub: 即 数据 的 录入 与 更 新 都 在 Hub 系 统 中 进行 ，Hub 就 是 SOR。 


. 注册 型 Hub: 即 从 多 个 源 数 据 收集 汇总 信息 ， 做 少量 清洗 和 编目 。 每 个 源 系 统 都 是 SOR， 注 册 Hub 指 向 每 一 个 SOR。 


. 集中 型 Hub: 即将 所 有 主 数据 集中 在 一 点 进行 创建 、 维 护 ， 其 他 系统 只 读 取 、 使 用 主 数据 。 





. 混合 型 Hub: 在 主 数据 管理 平台 中 物理 存储 企业 完整 的 主 数据 的 同时 ， 在 企业 内 部 各 业务 系统 (包含 操作 型 与 分 析 型 ) 中 
也 同样 物理 存储 各 业务 系统 进行 相关 业务 操作 时 所 需要 的 主 数据 。 


4. 主 数据 管理 基本 流程 
主 数据 管理 的 实施 流程 可 以 按照 数据 对 象 管理 流程 、 数 据 结 构 管理 流程 和 数据 认 责 管理 流程 分 别 进行 。 


数据 对 象 的 管理 流程 是 对 数据 实体 对 象 产生 的 操作 ， 如 新 增 一 个 主 数据 ， 变 更 数据 对 象 的 具体 使 用 属性 值 、 区 域 位 置 、 是 否 
在 用 、 是 否 关 停 等 。 数 据 对 象 的 管理 流程 即 对 数据 的 日 常 使 用 ， 数 据 的 新 增 、 修 改 、 冻 结 与 删除 都 包含 在 其 中 。 


数据 结构 管理 流程 则 是 增加 属性 、 调 整 属性 类 型 ， 例 如， 可 以 增加 客户 联系 方式 、 客 户 等 级 等 。 数 据 认 责 管理 流程 一 般 是 变 
更 某 类 数据 (客户 、 财 务 科目 ) 或 某 类 数据 的 个 别 属性 (地理 位 置 属性 、 客 户 联系 人 ) 的 认 责 部 门 。 数 据 结构 管理 流程 与 数据 认 
责 管理 流程 都 被 认为 是 数据 管理 配置 流程 。 


第 四 篇 ”数据 工程 


第 9 章 “理解 数据 业务 流程 


众所周知 ， 在 开始 任何 大 数据 项 目 或 者 计划 之 前 ， 确 定 业务 问题 和 目标 是 至 关 重 要 的 ， 但 对 于 多 数 人 来 说 ， 这 仍然 具有 挑战 
性 。 在 本 章 中 ， 我 们 将 学 习 如 何 应 对 这 种 挑战 。 


在 这 个 信息 驱动 的 时 代 ， 我 们 已 经 到 达 数 据 革 命 的 十 字 路 口 : 使 用 大 数据 和 物 联 网 (loT) 革命 性 技术 获得 的 智能 ， 简 化 操 
作 并 获得 竞争 性 业务 优势 。 对 于 很 多 许多 组 织 来 说 ， 扩 充 和 改造 现 有 的 数据 仓库 和 分 析 能 力 ， 已 经 成 为 日 常 工作 的 一 部 分 。 在 开 
始 整合 以 上 这 些 新 技术 之 前 ， 我 们 应 该 问 自己 一 些 基 本 问题 : 例如 我 们 为 什么 这 样 做 ,或 者 什么 样 的 技术 可 以 支持 业务 战略 。 即 
使 这 些 问题 听 起 来 过 于 直观 和 基本 ， 但 它们 就 如 同 哲学 的 基本 问题 一 样 ， 依 然 是 解决 问题 正确 的 出 发 点 。 我 们 的 经 验 是 ， 必 须 了 
解 业务 的 驱动 因素 、 关 键 的 成 功 因 素 ， 以 及 与 之 相 适 应 的 组 织 能 力 。 这 么 做 肯定 有 助 于 获得 内 部 支持 ， 并 能 更 快 、 更 有 效 地 启动 
后 续 计 划 ， 也 能 成 功 地 获得 预期 的 业务 收益 。 


在 本 章 中 ， 我 们 将 讨论 如 何 分 析 组 织 的 业务 挑战 和 需求 ， 同 时 介绍 如 何 制定 未 来 的 整体 信息 架构 。 图 9-1 指 出 了 我 们 所 处 的 
阶段 。 在 这 个 阶段 ， 我 们 将 详细 地 理解 业务 架构 。 
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后 续 计划 ， 也 能 成 功 地 获得 预期 的 业务 收益 。 


在 本 章 中 ， 我 们 将 讨论 如 何 分 析 组 织 的 业务 挑战 和 需求 ， 同 时 介绍 如 何 制定 未 来 的 整体 信息 架构 。 图 9-1 指 出 了 我 们 所 处 的 
阶段 。 在 这 个 阶段 ， 我 们 将 详细 地 理解 业务 架构 。 


9.1 理解 商业 动机 


把 业务 需求 与 创新 和 我 们 的 信息 架构 计划 联系 起 来 ， 有 助 于 加 快 实现 业务 价值 ， 也 能 帮助 我 们 更 有 效 地 做 规划 。 数 据 源 的 增 
长 和 变化 以 及 信息 需求 模式 的 变化 ， 对 业务 发 展 方向 的 预测 以 及 如 何 优先 处 理 数 据 上 的 需求 提出 了 挑战 。 通 常 ， 使 用 较 新 技术 的 
言 息 架 构 的 创新 可 能 会 遇 到 阻碍 (由 于 无 法 匹配 新 的 分 析 能 力 与 期 望 的 业务 成 果 ， 或 者 无 法 优先 处 理 数 据 上 的 需求 ) 。 在 这 种 场 
景 下 ， 企 业 应 制定 全 局 性 的 信息 战略 ， 通 过 明确 的 商业 产 出 来 满足 数据 和 分 析 需 求 ， 将 信息 分 发 与 商业 产 出 相 匹配 ， 提 高 了 IT 响 
应 能 力 ， 使 企业 能 够 把 投资 资金 用 在 最 需要 的 地 方 。 





实施 计划 
开发 < 合理 
定义 路 线 图 想象 ” 的 愿景 
设计 未 来 确定 商业 了 驱 早期 路 线 图 开发 最 初 
组 织 架 构 动力 与 KPI 的 核心 要 素 /” 的 优先 策略 / 的 商业 案例 
KPI 的 
评估 技能 数据 组 成 


图 9-1 商业 驱动 和 KPI 模型 


1. 大 数据 和 物 联网 对 业务 的 影响 


IT 提供 的 商业 智能 和 分 析 功 能 有 时 并 不 能 反映 出 企业 的 附加 值 ， 如 图 9-2 所 示 。 在 尝试 将 业务 战略 与 1T 系 统 连 接 起 来 时 ， 比 


如 企业 战略 如 何 决 定 业务 目标 以 及 支持 该 策略 需要 哪些 信息 功能 ， 提 出 正确 的 问题 非常 重要 ， 我 们 必须 了 解 关键 数据 源 所 在 位 置 
以 及 存在 哪些 潜在 的 数据 缺口 。 在 本 书 范围 内 ， 我 们 尝试 去 了 解 哪些 地 方 需要 IT 解决 方案 ， 这 些 方案 包括 了 大 数据 和 物 联网 的 部 
分 。 


2. 面 向 业务 价值 调整 优先 级 


商业 智能 和 分 析 应 用 程序 专注 于 分 析 历 史 数 据 ， 并 尝试 解释 企业 过 去 的 表现 。 但 是 ， 这 种 能 力 可 能 无 法 使 业务 分 析 师 对 现 有 
业务 进行 敏捷 分 析 ， 并 快速 修改 业务 流程 。 这 就 类 似 于 看 看 后 视 镜 ， 看 看 你 已 经 走 过 的 路 。 即 便 操作 分 析 对 于 更 多 地 了 解 过 去 的 
业务 绩效 非常 重要 ， 但 是 ， 增 加 更 多 的 预测 分 析 可 以 使 分 析 师 能 够 看 到 未 来 ， 提 高 反应 速度 ， 并 影响 企业 的 流程 ， 从 而 提供 更 高 
的 商业 价值 。 由 于 来 源 于 大 数据 和 物 联网 的 数据 通常 体 量 巨 大 ， 而 且 具 备 多 样 性 和 高 速度 的 特性 ， 因 此 ， 我 们 建议 预测 分 析 和 操 
作 分 析 等 能 力 可 以 在 数据 打通 的 企业 中 提供 。 这 种 数据 架构 方法 可 以 帮助 企业 跨越 到 更 高 级 别 的 业务 效率 。 


企业 的 总 体 增 长 与 运营 策略 是 什么 ? 
人 e 企业 的 总 体 增长 与 运营 策略 是 什么 

e 哪些 业务 计划 可 以 支持 策略 、 提 供 额 外 能 力 或 是 促进 创新 ? 
运营 计划 

e@ 在 分 析 与 处 理 的 需求 或 能 力 时 需要 哪些 数据 ? 这 些 数据 在 


商业 信息 哪里 ?潜在 的 缺口 、 输 入 、 产 出 又 是 什么 ? 


后 筷 、 
需要 用 何 种 IT 系统 /解决 方案 来 支持 信息 策略 ， 帮 助 提高 
IT 系统 市 场 竞 争 力 和 加 速效 益 的 实现 ? 


优势 : 快速 市” 低 成 本 ”简化 操作 低 风 险 
图 9-2 ”企业 策略 IT 化 的 流程 


但 是 ,我 们 也 应 该 注意 到 ， 在 很 多 企业 里 ， 大 数据 项 目的 创新 会 受到 阻碍 。 正 如 之 前 所 说 ,企业 无 法 完成 新 的 分 析 能 力 与 明 
确 的 业务 成 果 之 间 的 整合 ， 或 者 无 法 确定 信息 需求 的 优先 级 。 因 此 ， 在 现实 世界 中 ， 通 常 只 有 少数 新 的 技术 功能 提高 业务 附加 
值 ， 如 图 9-3 所 示 。 在 完成 小 学 围 创 新 并 产生 成 绩 之 后 ， 更 重要 的 是 反思 这 些 功能 (哪怕 很 小 ) 是 如 何 真正 影响 业务 的 。 确 定 其 
影响 程度 并 衡量 影响 的 能 力 ， 可 以 使 组 织 更 好 地 扩大 计划 ， 提 高 执行 效率 。 







组 织 价值 


成 本 降低 / 收益 提高 
大 数据 和 物 联网 对 商业 最 明显 的 影响 


额外 的 能 力 和 苋 争 力 





集成 分 析 (利用 统一 的 信息 体系 结构 ) 
商业 分 析 掀 联网 
支撑 基础 设施 





图 9-3 ”如何 将 商业 价值 分 解 成 分 析 需 求 
以 下 是 一 些 可 能 的 数据 分 析 和 业务 改进 : 
: 更 高 的 收入 : 通过 市 场 份额 增加 量 和 新 市 场 渗透 率 来 衡量 。 
通过 构建 更 丰富 的 客户 资料 ， 吸 引 新 客户 ， 并 在 促进 创新 的 同时 进行 交叉 销售 /追加 销售 ， 增 加 销售 量 。 
- 能 够 在 整个 价值 链 中 进入 /创建 新 市 场 或 提供 新 服务 ， 从 而 提高 收入 。 
- 增加 的 利润 : 通过 减少 商品 和 服务 的 直接 和 间接 成 本 以 及 从 营销 投资 获得 更 高 的 回报 来 衡量 。 
* 降低 供应 链 中 的 成 本 和 浪费 ， 提 高 敏捷 性 ， 以 应 对 市 场 营销 活动 增加 的 需求 。 
` 通过 改进 定价 策略 、 增 强 的 需求 和 供应 管理 ， 提 高 客户 留存 率 和 满意 度 。 
* 提高 效率 : 通过 改进 设备 和 系统 维护 成 本 和 可 用 性 进行 测量 。 
* 延长 使 用 寿命 ， 提 高 可 用 性 ， 提 高 现 有 设备 的 效率 。 
` 通过 改进 需求 管理 提高 利用 率 。 
“能力: 由 公众 和 合作 伙伴 对 公司 的 看 法 及 其 敏捷 应 对 外 部 因素 的 能 力 衡量 。 
* 提高 公司 的 股价 和 价值 ， 更 好 的 合作 伙伴 关系 ， 以 及 更 快 地 应 对 竞争 威胁 。 
. 显著 加 快 上 市 时 间 和 提高 能 力 。 


当 大 数据 和 物 联 网 计划 仅 由 IT 驱动 而 且 仪 仪 专注 于 技术 需求 和 当前 数据 时 ， 企 业 虽 然 通常 会 有 一 组 分 析 平台 ， 但 却 未 必 能 提 
供 具 有 更 高 整体 业务 影响 的 统一 分 析 解 决 方案 的 平台 。 


另 一 方面 ， 我 们 仍 需 要 相信 大 数据 和 物 联网 技术 可 以 在 刚才 描述 的 领域 提供 变革 能 力 。 接 下 来 ， 我 们 需要 了 解 这 些 技术 如 何 
增强 信息 架构 并 提供 业务 优势 。 图 9-4 给 出 了 一 个 高 层 的 策略 图 。 这 张 图 会 随 着 环境 的 变化 产生 许多 变化 ， 但 无 论 如 何 变化 ， 这 
张 图 可 以 用 于 帮助 匹配 IT 与 业务 策略 。 


一 决策 商业 目标 /动机 





IT 运营 动机 一 一 一 一 一 战术 一 一 一 一 一 影响 











投资 创新 以 及 
具有 高 增长 的 内 容 


利用 高 科技 与 企业 
特色 来 推动 企业 服务 


大 数据 、 物 联网 、 


分 析 以 及 数据 货币 


化 动机 






加 速 系统 收入 增长 


为 人 才 赋 能 ， 支 撑 企 业 


转型 观察 整个 基础 设施 ， 
充分 利用 通用 型 工具 、 
流程 与 服务 


图 9-4 使 IT 和 信息 战略 与 业务 战略 保持 一 至 
3. 数 据 收集 手段 


了 解 业 务 需求 ， 将 IT 计划 与 业务 目标 和 战略 相 协 调 ， 对 于 大 数据 项 目的 成 功 至 关 重 要 。 之 前 的 成 功 经 验 可 以 总 结 成 三 
又 : 调查 计划 、 初 步 研究 和 专家 咨询 。 如 图 9-5 所 示 。 


调查 计划 2 初步 全 究 


图 9-5 业务 数据 化 流程 





9.2 调查 计划 


将 时 间 用 在 事先 计划 上 是 有 巨大 好 处 的 。 这 个 过 程 可 以 用 最 有 效 和 及 时 的 方式 加 速 收集 业务 驱动 因素 、 挑 战 、 可 能 性 和 优先 
级 。 目 标 是 对 这 些 间 题 进行 更 深入 的 理解 。 一 般 地 ， 主 要 规划 活动 应 该 包括 : 


` 范围 、 目 标 和 估计 时 间 表 。 


* 需要 的 信息 、 潜 在 的 信息 来 源 和 数据 收集 方法 。 


9.3 初步 研究 


在 进行 咨询 之 前 ， 我 们 应 该 做 一 些 功课 。 有 价值 的 洞察 研究 的 可 能 来 源 包 括 : 


* 年 度 和 季度 报告 。 

“ 内 部 业务 战略 文件 。 

* 业务 线 报告 的 主要 成 功 指 标 。 

* 行业 数据 库 和 任何 其 他 离线 相关 信息 来 源 。 

. 主要 利益 相关 者 的 个 人 绩效 测量 和 补偿 影响 者 。 


初步 研究 通常 是 重要 信息 的 来 源 ， 可 以 帮助 我 们 制定 初始 价值 假设 ， 并 在 咨询 期 间 指导 早期 的 问题 如 何 解决 。 一 般 来 说 ， 研 
究 的 种 类 越 广 ， 初 步 分 析 就 越 丰富 。 即 使 越 来 越 多 的 高 价值 数据 可 以 通过 在 线 系统 提供 ， 但 最 好 的 信息 来 源 通常 依赖 线 下 获取 。 
寺 续 研究 和 创造 力 总 是 有 助 于 收集 尽 可 能 多 的 信息 ， 这 些 信息 用 以 了 解 潜在 的 业务 驱动 因素 和 支持 大 数据 和 物 联网 计划 的 用 例 。 


9.4 专家 和 咨询 

在 这 一 发 现 阶段 ， 重 点 是 收集 其 他 额外 的 信息 和 需要 考虑 的 特殊 用 例 。 收 集 人 员 应 把 意图 集中 在 收集 那些 独占 、 未 发 布 和 唯 
一 的 信息 上 。 访 谈 和 重点 小 组 是 常见 的 主要 研究 方法 ， 可 以 产生 定性 和 定量 数据 。 以 下 是 可 以 访谈 的 几 个 关键 示例 组 /资源 : 

* 商业 领袖 (如 市 场 营销 、 供 应 链 等 ) 。 

* 首席 财务 官 和 财务 支持 组 织 。 

“ 公司 战略 团队 。 

:CIO、IT 领 导 ， 以 及 组 织 中 的 其 他 企业 和 信息 架构 师 。 


访谈 的 范围 取决 于 正在 探索 的 业务 用 例 数量 和 所 需 的 信息 。 许 多 访谈 可 用 于 收集 来 自 相同 个 体 的 定性 和 定量 数据 。 收 集 定量 
数据 需要 更 结构 化 的 方法 ， 通 常 包 括 问卷 和 数据 收集 模板 的 组 合 。 如 果 可 能 ， 建 议 进行 面对面 访谈 ， 以 收集 有 效 的 信息 并 了 解 业 


小 组 研讨 会 和 发 现 会 议 通常 虽 在 收集 定性 信息 。 这 些 会 议 使 参与 者 能 够 反映 他 们 对 正在 考虑 的 用 例 的 看 法 。 互 动 可 以 产生 新 
的 想法 ， 交 流 可 以 非常 有 效 。 通 过 比较 来 自 关键 小 组 访谈 的 反馈 ， 就 能 获得 小 组 成 员 们 的 意见 和 看 法 。 


9.5 “识别 关键 成 功 因素 

对 于 任何 信息 架构 的 建设 ， 必 须 确定 一 组 业务 和 IT 成 功 因素 。 这 些 因素 将 被 一 一 映射 到 业务 目标 所 定义 的 未 来 企业 架构 上 。 
成 功 因素 通常 解释 了 现 有 的 挑战 和 /或 需要 哪些 新 的 能 力 。 这 些 挑战 和 新 需求 将 推动 业务 创新 和 业务 区 分 。 

1 商业 动因 


商业 动因 会 影响 组 织 的 当前 和 未 来 业务 绩效 。 识 别 成 功 因素 ， 就 是 要 了 解 企业 和 企业 所 属 行业 的 关键 业 务 驱动 因素 。 我 们 必 
须 了 解 这 些 驱动 因素 将 如 何 影响 我 们 提出 的 未 来 状态 。 例 如 ， 图 9-6 是 个 反例 ， 它 几乎 没有 代表 运输 业 的 主要 业务 驱动 因素 。 


解锁 数据 的 能 力 现在 通常 依赖 企业 如 何 有 效 地 在 企业 层面 结合 结构 化 、 半 结构 化 和 流 式 数据 ， 以 及 开发 符合 业务 需求 的 统一 


信息 架构 。 我 们 认为 ， 分 析 来 自 物 联网 和 其 他 大 数据 源 的 数据 可 以 改善 业务 成 果 。 表 9-1 列 出 了 交通 运输 行业 的 典型 用 例 ， 可 能 
对 该 行业 公司 的 业务 产生 积极 影响 。 

每 个 行业 和 每 个 组 织 都 有 独特 的 业务 用 例 。 例 如 ， 我 们 可 以 对 一 些 可 能 的 用 例 提供 广泛 的 指导 ， 在 发 现 过 程 中 识别 这 些 用 例 
是 非常 重要 的 。 

在 识别 业务 用 例 时 ， 识 别 特定 的 成 功 因素 至 关 重 要 。 我 们 必须 确定 关键 的 成 功 因 素 、 关 键 绩效 指标 和 所 需 的 关键 措施 。 例 
如 ， 如 果 企 业 希 望 实现 10% 的 线 上 销售 增长 ， 我 们 应 该 了 解 如 何 使 用 当前 的 信息 来 衡量 销售 。 我 们 还 想 了 解 如 何 通 过 设想 的 未 来 
状态 架构 衡量 对 销售 的 影响 。 正 如 将 在 本 章 后 面 看 到 的 ， 识 别 这 些 特 定 成 功 因素 在 构建 包括 预期 效益 量化 的 业务 案例 时 非常 重 
要 。 


数据 资源 在 运输 业 的 产 出 
交易 性 e CRM 用 户 e 制造 业 e 供应 链 e 产品 
社交 媒体 e 电话 中 心 记录 e 担保 业 e GPS 。 产品 质量 


外 部 消费 者 ”。 用 户 反馈 e。 汽车 诊断 ® RFID e 外 部 伙伴 


数据 类 型 
.关系 邮件 。 文 本 。 文 件 图 像 。 音 频 。 视 频 。 手 机 。 社 交 。 机 器 数据 





制造 业 计 划 制造 业 与 保险 业 质量 用 户 服务 创新 
能 够 根据 需求 增产 或 减产 QA、 根 本 原因 以 及 召回 不 同 的 服务 类 型 


维修 分 析 供应 表现 分 发 与 仓库 管理 
最 佳 蔡 换 选择 质量 与 按时 传递 优化 本 地 设备 规模 


风险 分 析 宣传 与 营销 











了 解 潜在 安全 问题 / 可 信和 度 以 可 测量 的 结果 去 最 优化 支出 


图 9-6 ”运输 业 考 虑 的 主要 业务 驱动 因素 
表 9-1 透 过 大 数据 和 物 联网 领域 观察 交通 运输 行业 


收益 
利用 车 辆 传 感 需 数据 进行 早期 故障 检测 、 服 务 警 报 和 监控 排放 
各 驶 员 行 为 /模式 监测 的 风险 分 析 和 改进 的 指导 
传感器 数据 分 析 ， 以 防止 事故 / 自动 断 开 


通过 播客 、 音 乐 或 新 闻 来 定位 位 置 敏 感 型 播放 列表 
CR 基于 位 置 的 服务 | 基于 车 辆 位 置 开 发 个 性 化 的 广告 活动 和 警报 
ee 


和 基于 实时 交通 模式 的 智能 路 线 指导 和 导航 











太吉 的 驾驶 体验 驾驶 室 的 个 性 化 
实时 监测 和 持续 的 远程 诊断 
条 低 保修 成 本 加 
降低 保修 成 本 | ”提高 保修 索赔 中 成 本 回避 / 节约 潜在 可 能 发 生 的 成 本 
保险 遥测 和 新 数 a 、 吧 握 亿 旨 由 蛮 
了 基于 实时 驾驶 统计 分 析 风 险 概况 ， 降 低 索赔 与 保费 比率 
改善 仓库 和 车 队 管理 
准确 的 业务 需求 | ”优化 的 需求 和 生产 管理 
规划 和 物流 优化 库存 水 平 ， 改 进 物流 ， 以 实现 可 预见 的 货物 和 服务 交付 
加 强 合作 伙伴 关系 和 整合 ， 改 善 整个 供应 链 的 运营 
交通 行业 和 | fj 车 队 管理 和 保修 效率 
其 他 行业 结合 一 区 分 服务 和 避免 昂贵 的 公共 召回 





增加 服务 收入 。 能 够 推出 新 的 、 改 进 的 个 性 化 和 移动 服务 ， 以 
更 高 的 商业 价值 | 获得 更 高 的 收入 

和 改善 的 客户 体验 | ”整体 成 本 优化 ， 更 好 的 利润 / 提高 价格 实现 

有 效 和 个 性 化 的 营销 活动 ， 供 应 链 优 化 和 积极 主动 的 客户 参与 


2.1T 驱 动力 与 商业 动机 的 联系 


虽然 商业 动机 是 本 章 的 重点 ， 但 是 在 此 讨论 IT 驱 动力 也 相当 重要 。 两 者 之 间 的 联系 对 于 开发 企业 级 统一 解决 方案 至 关 重要 ， 
这 些 方案 能 够 有 效 满 足 商业 需求 。 


一 旦 识别 出 定义 了 动机 的 业务 用 例 ， 就 需要 对 环境 进行 技术 评估 和 差距 分 析 ， 以 确定 当前 状态 与 需要 的 状态 ， 从 而 支持 解释 
用 例 。 图 9-7 显 示 了 数据 成 熟 度 与 组 织 变革 之 间 的 联系 。 我 们 认为 ， 大 多 数 企 业 现 在 正在 从 标准 化 环境 转向 更 灵活 的 环境 。 他 们 
正在 考虑 分 析 各 种 数据 类 型 的 好 处 。 随 着 数据 环境 的 进步 ， 对 实时 动作 和 实时 推荐 的 需求 成 为 了 一 个 期 望 中 的 、 同 时 也 可 行 的 目 
标 。 这 些 想法 是 如 今 许 多 IT 部 门 重要 的 思考 方向 。 










言 息 即 平台 : “综合 视角 ”分 析 
获取 路 订阅 者 集团 的 工 
具 与 获取 数据 





敏捷 灵活 的 架构 : 





企业 转型 的 影响 先进 技术 与 实时 推荐 
企业 标准 工具 /解决 方案 : 
数据 仓库 与 相关 数据 市 场 
独立 数据 市 场 (仓库 ) 
目前 主要 的 组 织 结 构 ”分析 视角 
图 9-7 集成 分 析 的 连续 成 熟 度 
3. 连 续 成 熟 度 发 展 模型 


精心 规划 的 商业 动机 需要 同时 考虑 业务 驱动 和 IT 能 力 。 有 了 时候 ,技术 能 力 方面 的 讨论 将 会 开启 业务 侧 更 多 更 深入 的 讨论 。 


差距 分 析 可 以 使 企业 能 确保 提出 的 解决 方案 能 够 提供 所 需 的 能 力 ， 以 支持 业务 需求 。 以 下 列表 包括 主要 领域 相关 的 关键 属 
性 ， 其 可 以 推进 对 信息 架构 的 改变 的 需要 : 


` 战略: 包括 总 体 战 略 、 资 本 和 运营 预 壮 、 绩 效 指标 、 赞 助 以 及 项 目 和 计划 合理 性 。 

. 技术 : 包括 适用 性 、 集 成 和 对 行业 标准 的 支持 ， 以 及 相关 工作 负载 的 技术 和 I 本 架构 的 性 能 。 
“ 数据 : 包括 所 有 类 型 的 数据 的 质量 、 相 关 性 、 可 用 性 、 可 靠 性 、 治 理 、 安 全 性 和 可 访问 性 。 
" 人 : 包括 技术 和 分 析 技 能 、 组 内 和 组 间 协 作 ， 以 及 组 织 结构 、 领 导 力 、 培 训 和 文化 准备 。 
. 过 程 : 包括 数据 收集 处 理 、 数 据 整合 、 数 据 集 成 、 数 据 分 析 、 信 息 传 播 和 消费 以 及 决策 。 


技术 和 数据 领域 特别 有 趣 ， 因 为 它们 之 间 的 紧密 联系 可 以 实现 业务 战略 和 业务 流程 中 定义 的 业务 需求 。 随 着 基础 设施 变 得 更 
加 灵活 ， 我 们 为 解决 方案 提供 了 更 多 的 可 能 性 。 


技术 解决 方案 的 选择 ， 需 要 对 信息 成 熟 度 量 表 的 所 有 主要 属性 进行 评估 。 在 本 书 的 多 个 地 方 ， 我 们 都 会 描述 如 何 做 这 项 工 
作 。 这 个 过 程 对 于 实现 更 高 的 利益 是 至 关 重 要 的 。 


图 9-8 展 示 了 有 助 于 定义 统一 信息 架构 的 一 些 关 键 技术 组 件 和 数据 属性 ， 清 晰 地 说 明了 未 来 状态 信息 架构 如 何 包含 不同 信息 
属性 。 当 我 们 建立 一 个 早期 的 业务 案例 时 ， 可 以 构建 这 样 的 模型 ， 以 更 好 地 了 解 当前 项 目 或 多 个 项 目 是 否 能 持续 可 行 。 在 这 个 模 
型 上 ,决策 人 员 也 可 以 尽 可 能 估算 出 潜在 范围 和 潜在 成 本 。 
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图 9-8 信息 架构 图 


识别 技术 和 业务 驱动 因素 将 使 企业 能 够 选择 正确 的 解决 方案 ， 并 尽早 开始 真正 的 项 目 计 划 ， 同 时 帮助 量化 IT 和 业务 的 价值 。 


9.6 ”优先 考虑 早期 路 线 图 的 执行 


当 我 们 开始 转型 时 ， 相 比 于 “大 爆炸 ” 式 的 推倒 重 来 ， 逐 步 进 化 发 展 的 方法 成 功率 更 大 。 这 适用 于 所 有 信息 架构 项 目 ， 包 括 
大 数据 和 物 联网 项 目 。 特 别 是 ， 目 前 一 些 大 数据 或 者 物 联网 技术 在 大 多 数 企业 中 是 相对 较 新 的 ， 它 们 通常 在 实验 室内 部 署 ， 仪 仅 
可 用 于 实验 室 中 的 概念 验证 。 


要 超越 在 实验 室 里 的 实验 阶段 ， 需 要 了 解 技 术 可 能 带 来 的 潜在 业务 成 果 ， 以 及 项 目 是 否 会 产生 影响 和 变革 性 。 如 果 是 这 种 情 
况 ， 并 且 企 业 正 在 考虑 开展 多 个 项 目 ， 则 通常 基于 具体 业务 成 果 和 潜在 现金 收益 的 重要 性 来 确定 阶段 。 项 目 供 资 优 先 级 通常 由 部 
署 解决 方案 可 实现 的 潜在 投资 回报 率 决定 。 投 资 回报 率 最 高 的 项 目 在 预算 范围 内 获得 资金 。 


你 可 以 设想 一 个 三 阶段 方法 ， 从 识别 动机 到 确定 商业 影响 ， 最 后 确定 优先 级 ， 如 图 9-9 所 示 。 接 下 来 我 们 看 看 确定 业务 的 影 
响 。 


优先 级 和 


识别 动机 》 确定 商业 影响 》 中 张罗 





图 9-9 ”优先 级 确定 流程 


1. 确 定 业务 影响 并 确定 优先 级 


我 们 应 该 采用 一 致 和 系统 的 方法 将 可 能 的 项 目 与 业务 目标 联系 起 来 ， 并 确定 项 目 可 能 产生 的 影响 程度 。 如 图 9-10 所 示 ， 业 
务 和 流程 绩效 驱动 因素 及 其 结果 被 映射 到 “成 功 措施 ”， 而 “成 功 措施 ”又 映射 到 “项 目 驱动 ”。 这 种 方法 确保 我 们 将 从 项 目 中 
获得 业务 的 潜在 投资 回报 。 


结果 成 功 措施 项 目 驱动 
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图 9-10 优先 级 方法 
让 我 们 仔细 看 看 如 何在 三 个 步骤 中 执行 这 个 方法 。 


步骤 1: 在 此 步骤 中 ， 首 先 确定 最 高 的 企业 目标 和 预期 成 果 。 接 下 来 ， 根 据 对 企业 的 重要 程度 为 目标 分 配 权 重 。 为 了 简单 起 
见 ， 可 以 使 用 低 、 中 和 高 分 (范围 为 1 到 3) 。 如 果 团队 喜欢 更 高 的 粒度 ， 可 以 使 用 1 到 10 来 分 配 分 数 。 同 样 ， 我 们 将 指出 如 何 度 
量 影响 目标 的 结果 。 可 以 使 用 1 到 3 的 刻度 或 1 到 10 的 刻度 来 分 配 分 数 。 在 这 一 阶段 获得 利益 相关 者 的 共识 以 确保 完全 接受 是 非常 
重要 的 。 一 旦 评分 完成 ， 每 个 结果 将 具有 加 权 分 数 ， 表 示 它 如 何 影响 企业 目标 。 (这 个 分 数 是 通过 将 每 个 商业 动因 权重 结果 的 分 
数 相 乘 ， 并 将 它们 相 加 得 到 的 。) 图 9-11 提 供 了 一 个 示例 评分 卡 ， 作 为 步骤 1 中 优先 级 的 一 部 分 。 

从 各 个 角度 来 看 ， 与 制造 /汽车 企业 中 的 有 效 保修 管理 相关 的 一 些 有 代表 性 的 结果 可 能 包括 : 


` 财务 : 能够 按 产品 管理 保修 成 本 。 


. 客户 : 能 够 提供 对 优质 产品 具有 竞争 力 的 保证 。 





` 内 部 : 能 够 连接 服务 和 保修 懂行， 以 确定 是 否 发 生 其 诈 。 


* 创新 和 成 长 : 能 够 将 优质 保修 作为 产品 差异 化 的 一 部 分 。 
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图 9-11 优先 级 方法 的 步 又 1 


步骤 2: 在 这 一 步 ， 我 们 把 第 一 步 的 总 分 作为 每 个 结果 的 相对 权重 。 与 步骤 1 类 似 ， 计 算 每 个 成 功 措施 的 分 数 ， 并 对 每 个 成 
功 措施 如 何 影响 结果 进行 评分 。 图 9-12 举 了 一 个 计算 的 例子 ， 以 得 出 成 功 措施 的 分 数 。 


成 功 措施 
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图 9-12 ”优先 级 方法 的 步骤 2 
下 面 是 几 个 代表 性 的 成 功 案例 ， 它 们 指出 了 相同 观点 下 的 结果 : 
财务 : 减少 保修 储备 基金 ， 节 省 数 百 万 美元 、 欧 元 等 。 (衡量 方法 : 按 产 品 的 保修 成 本 。) 
* 客户 : 匹配 的 保修 服务 有 助 于 提高 产品 的 认 知 度 。 (衡量 方法 : 产品 满意 度 。) 


“ 内 部 : 将 报告 时 间 从 五 天 减少 到 按 需 。 指 导 性 指标 对 保修 操作 可 见 。 (衡量 方法 : 与 订单 和 产品 更 换 订 单数 量 相关 的 缺 


. 创新 与 增长 : 通过 提供 更 长 且 有 利 可 图 的 保证 来 增加 销售 。 (衡量 方法 : 每 个 产品 的 保修 索赔 次 数 。) 
步骤 3: 接 下 来 ， 将 第 2 步 的 总 结 得 分 用 作成 功 措施 的 相对 权重 。 我 们 根据 预期 如 何 影响 确定 的 成 功 措施 ， 为 每 个 确定 的 项 


目 计划 指定 分 数 。 评 分 完成 后 ， 每 一 项 将 有 一 个 最 终 得 分 ， 以 表明 它 将 如 何 影响 业务 目标 。 预 期 具有 较 高 分 数 的 举措 将 具有 较 高 
的 业务 影响 。 图 9-13 显 示 了 代表 性 情景 中 所 有 确定 的 举措 的 得 分 。 
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图 9-13 ”优先 级 方法 的 步骤 3 
我 们 的 制造 企业 示例 中 可 能 出 现 的 几 个 举措 例子 包括 : 
通过 构建 对 客户 的 360 度 视图 ， 我 们 可 以 启动 新 的 、 改 进 的 个 性 化 和 移动 服务 来 增加 服务 收入 。 
. 通过 桂 续 进行 远程 诊断 ， 我 们 可 以 为 车 辆 提供 更 好 的 预防 和 主动 维护 ， 从 而 在 保修 索赔 中 实现 直接 的 成 本 回收 /节约 。 


一 旦 建立 了 “成 功 措施 ”和 “影响 评估 方法 ”的 初步 共识 ， 通 常 所 有 利益 相关 者 均 可 以 从 中 获 利 。 确 保 所 有 主要 利益 相关 者 


都 有 机 会 在 此 过 程 中 投票 ， 以 帮助 确保 对 整体 计划 的 认同 。 同 时 也 要 注意 让 更 多 利益 相关 者 在 影响 评估 过 程 中 提供 分 数 ， 这 将 有 
助 于 使 过 程 更 可 接受 ,分 数 更 准确 。 


计 oo 


图 ， 


2. 其 他 优先 级 注意 事项 


一 旦 这 些 举措 被 数字 化 ， 并 且 它 们 对 业务 的 影响 已 经 量化 ， 那 么 我 们 需要 对 每 个 举措 所 需 的 努力 水 平和 资源 数量 进行 初步 估 
我 们 还 要 开始 考虑 成 本 、 实 施 难度 、 可 能 需要 实施 的 时 间 ， 以 及 任何 其 他 因素 。 


虽然 可 以 在 业务 范围 内 确定 若干 举措 ， 但 那些 额外 的 因素 将 有 助 于 我 们 进一步 评估 这 些 举措 的 可 行 性 。 图 9-14 是 一 个 示例 
比较 了 战略 影响 /价值 与 风险 /复杂 程度 之 间 的 关系 。 这 样 可 以 帮助 我 们 定义 优先 级 和 阶段 。 我 们 也 可 以 在 这 样 的 图 表 中 选择 


和 显示 其 他 轴 一 一 所 选择 的 轴 取 决 于 公司 或 企业 的 价值 。 


优先 级 1: 现在 进行 优先 级 2: 现在 计划 
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优先 级 3: 低 优先 级 再 评估 
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图 9-14 ”战略 路 线 图 


9.7 ”战略 图 谱 


我 们 可 能 还 想 在 决策 中 考虑 其 他 因素 。 例 如 ， 不 同 颜色 的 气泡 可 用 于 识别 转换 的 主题 或 该 主题 属于 哪个 业务 线 。 可 以 在 气泡 
周围 增加 圆圈 来 指出 实现 主题 所 需 的 时 间 。 这 个 想法 是 确保 通过 使 用 这 些 图 表 可 以 做 出 明智 的 投资 决策 ， 我 们 也 在 规划 项 目 阶段 
使 用 它们 。 


1. 开 发 初始 业务 案例 


在 推进 重要 举措 时 ， 得 到 商业 案例 的 支持 ， 对 验证 技术 解决 方案 的 可 行 性 是 很 重要 的 。 它 有 助 于 证 明 投资 的 合理 性 ， 也 有 助 
于 获得 对 这 些 举措 的 内 部 支持 。 在 初期 ， 我 们 肯定 不 基于 所 需 的 所 有 信息 来 做 一 个 全 面 的 业务 案例 ， 技 术 上 ， 我 们 也 很 难 有 详细 
的 技术 设计 ， 甚 至 不 能 详细 说 明 实施 可 能 花费 的 成 本 。 但 一 旦 有 了 第 一 个 商业 案例 的 支持 ， 就 可 以 开始 确定 我 们 的 整体 项 目 和 未 


来 的 信息 架构 。 因 此 ， 在 初期 阶段 ， 我 们 将 重点 关注 以 下 三 个 领域 ， 以 便 构建 一 个 简单 的 商业 案例 。 
* 总 体 拥有 成 本 (TCO) : 在 一 定时 间 段 内 解决 方案 的 直接 成 本 。 
:开价 值 : I 流程 改进 和 成 本 回避 的 量化 值 。 
* 商业 价值 : 由 具体 计划 及 其 使 用 案例 提供 的 商业 利益 。 


我 们 注意 到 ， 当 IT 和 业务 部 门 都 参与 开发 业务 案例 时 ， 项 目 最 容易 成 功 。 这 些 努 力 联合 起 来 可 以 预测 一 个 新 举措 的 真正 的 总 
体 好 处 。 


如 图 9-15 所 示 ， 当 组 织 超越 简单 计算 TCO 并 开始 量化 预计 IT 和 业务 优势 时 ， 量 化 难度 就 变 得 越 来 越 困 难 和 耗 时 。 这 种 复杂 
性 来 自 于 业务 线 、IT 和 企业 的 各 种 团体 的 参与 ， 以 及 难以 收集 高 质量 的 数据 点 。 首 先 确定 关键 绩效 指标 ， 量 化 相关 利益 就 变 得 更 
容易 ， 并 且 业 务 案 例 的 准确 性 也 提高 了 。 
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图 9-15 ”综合 业务 案例 的 主要 组 成 部 分 


当 制 定 全 面 的 商业 案例 时 ， 应 该 重点 关注 所 有 三 个 重要 领域 一 一 TCO、|T 价 值 和 商业 价值 。 这 将 提高 当前 商业 案例 的 质量 
和 完整 性 。 


业务 案例 可 以 帮助 企业 评估 解决 方案 的 各 种 关注 项 目 。 单 纯 从 关键 技术 出 发 ， 团 队 在 技术 方案 实施 和 集成 的 过 程 中 ， 可 以 发 


现 很 多 未 来 的 发 展 方向 ， 而 业务 人 员 在 对 金融 业务 案例 的 分 析 过 程 中 ， 会 专注 于 投入 、 产 出 的 估计 ， 并 帮助 推动 最 终 决策 ， 同 时 
验证 投资 需求 。 商 业 案例 可 以 帮助 确定 资本 支出 (Cap Ex) 和 运营 支出 (Op Ex) 为 技术 转型 提供 资金 的 程度 ， 或 者 根据 融资 
需求 ， 企 业 应 该 如 何 将 资本 支出 转换 为 运营 支出 。 


当 开 始 商 业 案例 开发 时 ， 重 要 的 是 确定 全 部 或 部 分 资金 将 来 自 哪里 。 例 如 ， 资 金 可 以 来 源 于 企业 的 CIO、CFO、 业 务 线 或 公 
司 资金 池 。 如 果 决 策 者 的 绩效 或 补偿 与 计划 的 范围 内 举措 所 解决 的 业务 成 果 相 关 ， 那 么 在 与 高 管 讨 论 这 些 问 题 时 ， 我 们 将 调 
整 “语言 价值 ”。 重 要 的 是 要 确保 在 制定 和 向 决策 者 提供 商业 案例 时 考虑 所 有 这 些 因素 。 


在 制定 业务 案例 时 ， 确 定 企业 中 的 资金 占用 情况 是 另 一 个 重要 方面 。 这 方面 可 以 有 所 不 同 ， 通 常 通过 决策 者 说 的 话 来 判断 。 
理解 他 们 语言 的 微妙 方面 ， 使 我 们 能 够 以 与 企业 一 致 的 方式 分 析 财 务 。 例 如 ， 一 些 企业 将 重点 关注 三 到 五 年 的 运行 率 分 析 ， 因 为 
他 们 希望 专注 于 降低 运营 支出 ， 而 其 他 企业 则 对 资本 支出 和 运营 支出 同样 重视 。 


虽然 许多 企业 已 经 在 实验 室 或 概念 验证 环境 中 进行 投资 以 测试 下 一 代 信息 架构 组 件 (如 Hadoop) ， 但 一 些 企业 已 将 下 一 代 
脚本 部 署 到 生产 环境 中 。 在 企业 已 经 进行 此 类 投资 的 情况 下 ， 重 要 的 是 找到 支持 业务 计划 所 需 的 预期 增长 率 ， 现 有 设备 的 年 龄 和 
折旧 ， 以 及 设备 是 否 是 自 有 或 租赁 。 这 些 因 素 也 可 能 对 包括 大 数据 和 物 联 网 技术 在 内 的 修订 信息 架构 的 转型 投资 产生 影响 。 


2. 总 体 拥有 成 本 (TCO) 


TCO 计 算 应 考虑 服务 器 、 存 储 、 软 件 、 系 统 环境 成 本 、 安 装 和 实施 成 本 。 与 解决 方案 选项 相关 的 所 有 硬性 成 本 都 应 纳入 审 
查 ， 包 括 任何 会 对 直接 成 本 产生 影响 的 人 员 投 资 。 这 里 有 一 个 代表 性 的 列表 ， 考 虑 替代 解决 方案 的 简单 TCO 比 较 的 因素 : 


硬件 : 

“ 节点 (服务 器 和 存储 ) 、 传 感 器 和 网 络 组 件 的 获取 成 本 。 
* 年 度 支持 成 本 。 

软件 : 


: 软件 许可 成 本 《数据 发 现 工 具 、 商 业 智能 工具 、 数 据 管 理 软件 、 应 用 程序 许可 、 集 成 工具 和 任何 其 他 适用 的 组 件 ， 以 支持 
全 面 的 解决 方案 ) 。 


.年度 支持 费用 。 

当 软 件 被 更 新 的 技术 取代 时 软件 的 成 本 。 

环境 考虑 : 

` 电力 和 冷却 成 本 (我 们 强烈 建议 包括 这 些 成 本 ， 不 论 资 金 来 源 和 IT 的 任何 退 款 ) 。 


“ 数据 中 心 空间 成 本 (对 于 受 空间 限制 约束 的 数据 中 心 ， 这 可 能 是 一 个 非常 大 的 因素 ) 。 


" 有 关 安 装 和 实施 解决 方案 成 本 的 最 佳 初步 猜测 。 
" 解决 方案 的 培训 需求 和 相关 成 本 。 
. 在 企业 层面 上 的 其 他 系统 的 额外 集成 成 本 。 


通常 ， 我 们 将 独立 解决 方案 TCO， 与 另 一 组 预计 的 IT 和 业务 优势 进行 比较 。 表 9-2 提 供 了 18 节 点 Hadoop 集 群 的 高 级 TCO 摘 


要 示例 。 应 为 考虑 进行 比较 的 每 个 解决 方案 选项 制定 类 似 的 TCO 摘 要 。 


表 9-2 TCO 的 内 容 组 成 示例 


种 类 5 年 总 成 本 (单位 : 美元 ) 
硬件 收集 327 330+0+0+0+0 = 327 330 
硬件 支持 45 826+45 826+45 826+45 826+45 826 = 229 130 
软件 收集 113 400+113 400+113 400+113 400+113 400 = 567 000 
软件 支持 0+0+0+0+0=0 
( 续 ) 
种 类 5 年 总 成 本 (单位 : 美元 ) 
占 地 空间 、 电 源 和 冷却 16 367+16 367+16 367+16 367+16 367 = 81 835 
实施 、 迁 移 和 培训 62 400+0+0+0+0 = 62 400 
总 额 565 323+175 593+175 593+175 593+175 593 = 1 267 695 
净 现 值 (NPV) 1 131 397 


3.IT 价 值 

业务 案例 的 这 一 部 分 涉及 对 IT 流程 改进 和 成 本 回避 的 量化 。 一 些 代表 性 的 盯 优 点 可 能 包括 以 下 方面 。 

流程 改进 : 

.能够 更 快 地 响应 业务 需求 〈 通 过 提供 适用 于 所 审查 项 目 之 外 的 敏捷 功能 的 解决 方案 增加 的 价值 ) 。 

.能够 更 快 地 推出 解决 方案 (为 IT 部 门 带 来 的 市 场 优势 ， 例 如 构建 解决 方案 所 需 的 时 间 ， 以 及 可 以 更 快 推 出 的 选项 ) 。 
修补、 配置 、 问 题解 决 方案 改进 〈 有 效 维护 环境 ) 。 

. 增强 的 监控 和 诊断 功能 (生态 系统 中 内 置 的 可 用 工具 ， 用 于 提供 卓越 的 监控 和 集成 功能 ) 。 

` 能 够 在 企业 级 集成 到 组 织 生态 系统 中 ， 与 有 限 的 项 目 级 集成 (例如 ， 可 以 轻松 与 企业 级 信息 架构 集成 的 解决 方案 ) 。 
` 增强 的 服务 水 平 协议 (SLA) 指标 。 


* 由 于 可 靠 性 、 可 扩展 性 和 标准 化 等 其 他 体系 结构 因素 的 好 处 (由 于 这 些 因素 受到 一 定 的 技术 解决 方案 的 高 度 重视 ， 应 随 着 
规范 的 变化 而 频繁 地 重新 考虑 这 些 因素 ， 有 时 ， 被 考虑 的 选项 可 以 在 这 些 领域 具有 变革 能 力 ， 对 企业 有 重要 价值 ) 。 








IT 员 王 生产 为 改进 : 


: 由 于 I 本 流程 改进 而 减少 的 管理 工作 量 (减少 执行 初始 安装 、 测 试 和 集成 到 持续 管理 和 维护 所 需 的 时 间 ， 为 更 高 价值 的 活动 
腾 出 时 间 ) 。 


* 利用 固定 资源 扩展 平台 的 能 力 (需要 平台 扩展 和 添加 资源 ) 。 
规避 成 本 : 


:同时 考虑 其 他 方案 ， 不 妨 把 期 权 作 为 降低 资本 成 本 和 运营 成 本 的 一 种 方式 。 


` 由 于 解决 方案 的 变革 性 质 ， 未 来 的 计算 和 存储 购买 避免 。 
. SLA 或 其 他 惩罚 规避 。 
这 个 名 单 本 质 上 只 是 代表 性 的 。 不 同 企业 的 IT 收益 差异 很 大 。 表 9-3 说 明了 IT 价值 量化 优势 的 简单 示例 。 


表 9-3 ”商业 案例 中 的 IT 价值 组 成 示例 


、 了 储蓄 /年 
区 本 总 立 。 琵 
收益 总 成 本 (单位 : 美元 ) ( 储 划 单位 ， 美 元 ) 


缩短 配置 、 监 视 、 调 整 和 管 | 配置、 监控、 调整 的 工作 时 间 : 2000 x 65 
理 环境 的 时 间 = 130 000 (一 个 人 每 年 ) 

预先 测试 的 补丁 包 可 以 减少 
升级 和 修补 的 时 间 ， 并 提供 更 
少 的 复杂 性 和 更 少 的 手动 集成 


总 成 本 13 000 的 10% 


修补 、 集 成 和 纠正 在 集成 期 间 发 生 错 误 的 


、 总 成 本 13 000 的 20% 
工作 时 间 : 1000 x 65 = 65 000 (每 年 半 FTE ) 本 J20% 





访问 数据 、 运 行 查询 等 的 工作 时 间 : 4400 
x 65 = 286 000( 假 设 20 名 员工 ， 每 天 1 小 时 ， 
每 年 220 天 ， 如 果 有 更 好 的 集成 解决 方案 ， 
则 可 以 实现 更 高 的 收益 ) 
一 年 中 出 现 的 次 数 : 4 x 42 530 = 170 120(IT 
生产 率 : 根据 过 去 历史 或 行业 基准 计算 的 数 | 总 成 本 85 060 的 50% 
据 中 心中 断 的 平均 成 本 ) 


更 快 的 数据 访问 总 成 本 28 600 的 10% 


减少 停机 时 间 并 降低 IT 生 
| 


海外 和 美国 境内 查询 的 工作 时 间 : 1100 x 
界面 改进 65 =71 500 (五 个 人 每 天 在 一 个 海外 花费 一 小 | 总 成 本 71 500 的 100% 
时 ， 共 220 天 ) 


高 效 和 容易 的 存储 管理 ( 供 | | 
管理 环 培 的 工作 让 : 4S000 x6S = 325 000 
应 、 调 优 、 复 制 、 克 隆 、 性 能 | ， 理 环 境 的 工作 时 间 : 5000 x 


Es (优秀 的 存储 策略 加 上 数据 和 信息 战略 的 好 处 ) 
总 人 |341160 


IT 的 优势 可 能 看 起 来 不 是 很 大 。 这 对 于 这 种 类 型 的 计算 来 说 很 正常 。 转 型 信息 架构 项 目 ， 例 如 包括 大 数据 和 物 联网 的 项 目 ， 
由 于 其 可 以 提供 的 业务 价值 而 具有 巨大 的 上 升 空间 (本 章 后 面 将 会 提 到 ) 。IT 的 成 本 节约 通常 不 会 驱动 这 些 类 型 的 项 目 。 


总 成 本 130 000 的 40% 





请 记 住 ，IT 和 业务 收益 的 量化 会 涉及 约 80% 的 实际 数据 和 20% 的 猜测 ， 这 是 因为 必须 要 考虑 到 潜在 的 变化 和 更 好 的 收益 。 但 
是 ， 在 这 一 点 上 ， 我 们 只 是 想 了 解 可 能 成 为 业务 案例 的 潜在 好 处 。 因 此 ， 在 这 个 阶段 ， 包 括 的 内 容 灵 活 一 些 也 是 个 不 错 的 选择 。 


随 着 企业 开始 发 展 复杂 的 商业 案例 ， 我 们 建议 至 少 为 每 项 索赔 收集 三 个 数据 点 ， 以 确保 福利 是 合理 的 ， 并 代表 可 能 的 价值 范 
围 。 这 三 个 点 通常 代表 保守 、 稳 健 和 激进 的 福利 预测 。 


在 许多 情况 下 ， 预 期 收益 可 能 会 有 所 不 同 ， 这 取决 于 所 做 的 假设 。 表 9-4 显 示 了 如 何 使 用 保守 、 稳 健 和 激进 效益 预测 的 方法 
在 一 系列 情景 中 计算 相同 的 储蓄 。 


表 9-4 ”I 价值 链 计 算 示 例 


[a] 实施 系统 所 需要 的 管理 员 数 量 (来 源 : 由 模型 输入 ) 1 1 1 

[b] 每 个 管理 员 的 成 本 (来源 : 由 模型 输入 ) 130 000 130 000 130 000 

[c] 整个 活动 所 需要 的 成 本 (来 源 : [a] x [b]) 130 000 130 000 130 000 

[d] 采用 新 的 系统 后 ， 成 本 降低 的 预 估 百 分 比 % (来 源 : 根 So 人 i 
据 用 户 习惯 ， 输 入 相应 值 ) 

[e] 新 员工 预期 成 本 (来 源 [c] x (1-[d])) 6500 13 000 26 000 

[总 收益 (来源 [cl]-[e]) 123 500 117 000 104 000 


通过 考虑 所 有 预计 的 IT 和 业务 收益 的 三 个 数据 点 ， 企 业 可 以 对 具有 合理 利 差 的 综合 预期 收益 进行 审查 ， 如 图 9-16 所 示 。 
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图 9-16 。 保守、 稳健、 激进 三 种 情况 下 的 收益 预测 (单位 : 美元) 
4. 商 业 价值 
识别 和 量化 商业 价值 的 过 程 类 似 于 前 面 章 节 中 为 IT 价 值 量化 描述 的 过 程 。 然 而 ， 类 别 和 影响 /价值 显著 不 同 ， 更 多 地 依赖 于 


行业 商业 动因 和 公司 商业 计划 。 商 业 价值 往往 高 于 IT 价值 ， 是 决策 过 程 的 主要 驱动 力 。 
通常 ， 大 多 数 业 务 优势 可 以 再 次 分 类 ， 如 本 章 前 面 所 述 。 下 面 列 出 一 些 可 以 量化 为 商业 案例 开发 流程 一 部 分 的 代表 性 优势 : 
:能够 启动 新 的 业务 服务 。 
.对 收入 的 影响 。 
:成 本 避免 和 减少 。 
. 降低 业务 风险 。 
* 不 必要 的 计划 内 和 计划 外 停机 的 业务 影响 。 
* 提高 敏捷 性 以 及 响应 客户 和 市 场 需 求 。 
" 由 于 IT 和 企业 业务 之 间 的 战略 合作 关系 ， 整 个 组 织 的 额外 协同 效应 。 


接 下 来 ， 我 们 将 看 一 些 基 于 在 几 个 行业 中 观察 到 的 大 数据 和 物 联网 计划 的 例子 。 我 们 将 提供 的 行业 包括 零售 和 制造 业 。 


几乎 每 个 大 型 零售 商 如 今 都 在 投资 全 渠道 战略 。 这 种 方法 将 实体 店 和 在 线 商 店 的 管理 和 分 析 汇 集 在 一 起 ， 形 成 一 个 无 颖 的 购 
物体 验 。 由 于 Web 日 志 的 存在 以 及 通过 社交 媒体 表达 的 购物 者 情绪 的 重要 性 ， 这 些 解决 方案 通常 被 设计 为 将 Hadoop 作 为 信息 架 
构 的 一 部 分 。 当 然 ， 要 在 关系 型 数据 库 中 跟踪 各 个 商店 中 的 事务 ， 并 且 数 据 仓库 是 足迹 的 一 部 分 。 由 于 供应 链 和 运营 的 效率 提 
高 ， 未 来 的 国家 信息 架构 可 以 对 网 上 收入 和 实体 业务 产生 积极 影响 。 同 样 ， 其 他 业务 收益 也 可 以 每 年 量化 (预计 在 三 到 五 年 期 
间 ) ， 以 显示 未 来 国家 架构 的 真正 影响 。 


又 例如 ， 工 业 餐 厅 用 品 的 制造 商 正在 评估 从 冷冻 箱 中 的 传感器 分 析 数 据 的 价值 。 制 造 商 的 业务 线 看 到 他 们 可 能 会 使 用 这 项 技 
术 来 改善 冷冻 机 的 当前 销售 ， 并 建立 维修 业务 收入 系统 。 他 们 还 相信 设备 的 寿命 可 以 在 该 过 程 中 延长 ， 并 提高 客户 满意 度 。 
对 正在 审议 的 举措 的 预期 效益 进行 量化 ， 能 够 使 各 组 织 比 较 成 本 与 特定 时 期 内 的 效益 ， 并 做 出 明智 的 投资 决定 。 


虽然 计算 一 系列 收益 的 三 点 方法 是 非常 有 用 的 ， 但 在 某 些 情况 下 ， 企 业 需要 更 多 的 粒度 ， 需 要 用 特定 的 概率 计算 上 下 边界 。 
蒙特 卡 罗 方 法 可 用 于 运行 数 百 到 数 干 个 这 样 的 场景 。 商 业 软件 工具 通常 可 以 进行 这 些 模拟 ， 使 企业 能 够 确定 风险 和 项 目 收益 。 这 
种 方法 可 能 适用 于 投资 的 数量 级 很 大 或 投入 数量 非常 高 ， 并 具有 显著 价值 范围 的 情况 。 在 确定 哪 种 方法 更 加 适合 企业 时 ， 需 要 在 
以 下 两 方面 进行 权衡 : 一 方面 是 在 某 些 概率 水 平 下 ， 模 拟 软件 的 成 本 与 收益 范围 ， 另 一 方面 是 执行 三 点 方法 时 的 简易 性 与 快捷 
性 。 


图 9-17 是 从 软件 包 获 得 的 输出 示例 ， 该 软件 包 在 为 支持 潜在 计划 而 开发 的 业务 案例 模型 之 上 运行 蒙特 卡 罗 模 拟 。 


如 图 9-17 所 示 ， 这 种 方法 有 助 于 确定 具有 特定 确定 性 水 平 的 预期 效益 的 上 限 和 下 限 。 通 过 将 这 种 确定 性 水 平 调整 到 可 接受 
的 概率 ， 组 织 可 以 在 作出 明智 的 投资 决策 之 前 查看 可 能 的 利益 的 下 限 和 上 限 。 


5. 要 考虑 的 其 他 权衡 


当 我 们 为 这 些 类 型 的 项 目 构建 商业 案例 时 ， 可 能 会 发 现 为 更 新 的 数据 管理 系统 创建 企业 级 平台 会 产生 额外 成 本 。 由 于 商业 案 
例 的 强制 性 ， 我 们 可 能 还 需要 加 快 未 来 的 架构 的 上 市 。 
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图 9-17 商业 案例 的 蒙特 卡 罗 模 拟 输 出 


第 一 个 挑战 是 找到 构建 和 使 用 这 些 技术 的 熟练 人 员 。 例 如 ， 经 常 使 用 Hadoop 的 数据 科学 家 仍然 稀缺 和 昂贵 。 幸 运 的 是 , 今 
天 有 更 多 的 方法 来 访问 和 分 析 Hadoop 中 的 数据 ， 包 括 使 用 SQL 接口 和 流行 的 预测 分 析 工 具 。 对 于 ETL 外 载 ， 许 多 常见 的 ETL 工 具 
现在 完全 支持 Hadoop。 


对 更 快 的 企业 级 部 署 和 操作 支持 的 需求 也 可 能 导致 我 们 考虑 评估 购买 预 集成 的 服务 器 、 存 储 和 软件 单元 ， 作 为 DIY 配 置 的 替 
代 。 例 如 ， 包 括 可 用 于 在 演进 的 信息 架构 中 典型 的 各 种 数据 管理 系统 的 增加 的 设备 阵列 。 


种 挑战 。 
操作 风险 随时 间 的 变化 资源 需求 随时 间 的 变化 


保持 操作 运行 
所 需 的 核心 资源 
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图 9-18 ”利用 不 断 增加 的 大 数据 环境 DIY 资 源 配置 


另 一 个 可 以 考虑 的 选项 是 云 部 署 策略 。 与 组 装 你 自己 的 系统 相 比 ， 基 于 云 的 解决 方案 看 起 来 相当 简单 ， 如 图 9-19 所 示 。 在 
采用 基于 云 的 方法 时 ， 可 能 会 有 显著 的 成 本 和 时 间 优 势 。 


基于 项 目 需求 的 硬件 流程 


接收 基础 设施 
或 是 Hadoop 的 配置 需求 





配置 硬件 


安装 硬件 





需求 变化 时 ， 监 控 并 调整 能 力 


撤回 或 改造 未 利用 的 环境 





基于 项 目 需 求 的 硬件 流程 
> 
己 


安装 人 硬件 Hadoop 环境 


按 每 个 APP 配置 
Hadoop 或 其 他 环境 


有 需要 的 话 ， 增 加 
便 件 或 是 重新 配置 Hadoop 


所 一 一 一 一 一 基于 云 的 应 用 一 一 一 一 > 





图 9-19 ”DIY 与 基于 云 的 大 数据 环境 的 操作 影响 


响应 商业 需求 快速 放大 或 缩小 的 能 力 和 通过 使 用 自助 服务 方法 快速 供应 的 能 力 是 非常 可 取 的 。 权 衡 取 舍 通 常 是 技术 性 的 ， 特 
别 是 在 大 量 数 据 量 可 能 存在 于 与 基于 云 的 解决 方案 位 置 相 异 的 情况 下 ， 并 且 需 要 利用 所 有 的 数据 源 来 找到 商业 解决 方案 。 我 们 首 
先 需要 考虑 网 络 带 宽 和 灵活 性 ， 而 与 解决 这 些 问题 相关 的 成 本 变 得 更 加 明显 。 


第 10 草 ”大 数据 和 云 计算 


大 数据 的 本 质 是 利用 计算 机 集群 来 处 理 大 批量 的 数据 ， 大 数据 技术 的 关注 点 在 于 如 何 将 数据 分 友 给 不 同 的 计算 机 进行 存储 和 
处 理 。 云 计算 的 本 质 就 是 将 计算 能 力作 为 较 小 颗粒 度 的 服务 提供 给 用 户 。 在 大 数据 时 代 ， 企 业 想 要 将 数据 完全 存储 在 本 地 ， 构 筑 
一 套 自 用 的 数据 分 析 体 系 ， 是 一 件 耗 时 又 耗 力 的 事情 ， 而 大 量 的 云 计算 平台 为 企业 提供 了 便捷 、 高 效 的 解决 方案 。 


本 章 将 从 laas、Paas、Saas 三 个 方面 分 别 介绍 几 个 典型 的 云 计算 平台 ， 并 对 它们 的 技术 框架 、 模 式 进行 对 比分 析 。 


但 在 揭示 所 有 答案 之 前 ， 需 要 先 回答 一 个 基本 问题 : 到 底 什 么 是 云 计算 ? 


10.1 云 计 算 的 定义 


大 体 来 说 ， 云 计算 是 指 从 远 端 通过 网 络 获取 计算 服务 。 美 国 国 家 标准 与 技术 研究 所 (NIST) 对 云 计 算 有 一 条 标准 定义 ， 以 
下 信息 直接 从 中 引用 。 


云 计算 提供 使 用 无 处 不 在 、 方 便 、 按 需 的 网 络 访问 可 配置 的 共享 计算 资源 池 〈 例 如 网 络 、 服 务 器 、 存 储 、 应 用 和 服务 ) 的 能 
力 ， 它 可 以 通过 极 少 的 管理 工作 或 服务 交互 迅速 提供 或 释放 资源 。 


该 云 模型 由 五 个 基本 特征 组 成 。 
按 需 自 助 服务 : 消费 者 可 以 根据 需要 自助 创建 计算 资源 ， 例 如 服务 器 和 网 络 存储 ， 而 无 需 服务 提供 商 提供 人 工 服 务 。 


: 普遍 的 网 络 访问 : 服务 通过 网 络 提供 ， 并 可 通过 各 种 量 级 的 客户 端 ( 轻 量 或 大 量 ) 进行 访问 (例如 手机 、 平 板 、 笔 记 本 和 
工作 站 ) 。 


- 资源 池 化 : 云 服 务 商 向 各 类 用 户 提 供 池 化 、 多 租户 的 计算 资源 ， 并 根据 用 户 需 求 动态 或 比重 分 配 各 种 物理 和 虚拟 资源 。 用 
户 无 需 知道 资源 的 具体 位 置 ， 但 可 指定 更 抽象 的 位 置 ( 比 如 国家 、 州 、 数 据 中 心 等 ) 。 资 源 包 括 存储 、 计 算 、 内 存 和 网 络 带宽 。 


: 快速 弹性 : 资源 可 以 被 弹性 地 分 配 和 释放 ， 在 菜 种 情况 下 可 以 按 需 快速 向 外 和 向 内 扩展 。 对 用 户 来 说 ， 供 创建 的 资源 表面 
上 看 是 无 限 的 ， 可 在 任意 时 间 使 用 任意 数量 的 资源 。 


可 计量 的 服务 : 云 系统 可 以 针对 各 种 类 型 的 服务 (例如 存储 、 计 算 、 带 宽 或 活跃 的 用 户 ) 改变 计量 项 ， 自 动 控制 和 优化 资 
源 的 使 用 。 可 以 监控 、 控 制 和 上 报 资源 使 用 量 ， 这 些 对 云 提供 商 和 用 户 来 说 全 是 透明 的 。 


云 计 算 大 致 可 提供 三 种 类 型 的 功能 ， 简 称 laaS、PaaS 和 SaaS， 见 图 10-1， 其 中 aaS 是 “作为 服务 ”的 缩写 。 这 里 的 服务 不 
是 放置 在 本 地 ， 而 是 其 他 地 方 〈 在 远 端 并 通过 网 络 访问 ) 。 首 字母 缩写 |、P 和 S 代 表 不 同类 型 的 功能 ， 如 下 所 述 。 


SaaS 
云 软件 服务 





PaasS 
云 软 件 平 台 


EE 


服务 妖 、 和 存储 、 网 络 等 硬件 基础 设 


图 10-1 云 计算 提供 的 三 种 功能 


- 基础 设施 即 服务 (laaS) : 为 用 户 提供 基础 计算 设施 ， 包 括 计 算 、 网 络 连接 和 存储 (完整 的 IaaS 还 需要 其 他 功能 的 支持 ， 
比如 账户 、 使 用 量 监测 和 安全 ) 。 如 果 想 从 头 构建 应 用 和 使 用 系统 级 功能 ， 那 么 需要 使 用 IaaS 。 


: 平台 即 服务 (PaaS) : 为 开发 者 提供 高 层次 编程 框架 ， 而 非 系统 级 功能 的 计算 服务 。 例 如 在 PaaS 环 境 中 ， 开 发 者 只 需 调 
用 函数 并 传 入 位 的 集合 ， 而 无 需 先 打开 文件 ， 再 写 入 位 。 由 PaaS 框 架 处 理 这 些 枯燥 繁重 的 工作 ， 如 打开 文件 、 写 入 位 、 确 保 文 件 
系统 成 功 接收 到 位 等 。 由 PaaS 服 务 提供 商 负 责 数据 的 备份 和 管理 ， 从 而 减轻 用 户 必须 完成 的 繁重 的 管理 工作 。 


软件 即 服务 (SaaS) : SaaS 位 于 PaaS 之 上 。 在 SaaS 中 ， 所 有 的 应 用 功能 被 封装 在 包 中 通过 网 络 对 外 提供 。 用 户 只 需 使 用 应 
用 程序 ，SaaS 服 务 提供 商 处 理 、 创 建 和 操作 应 用 程序 、 隔 离 用 户 数 据 、 为 每 个 用 户 及 整体 SaaS 环 境 提供 安全 性 和 处 理 大 量 其 他 细 


二 


PP。 


在 每 一 种 模型 中 ，laaS、PaaS 和 SaaS 之 间 的 界限 是 有 确切 定义 的 。 然 而 想 要 在 实际 中 确定 一 个 简洁 和 完整 的 边界 却 是 相当 
复杂 的 。1PSs 这 种 模型 已 不 再 可 根据 类 型 明确 划分 。 许 多 云 提 供 商 提供 多 种 类 型 的 服务 。 尤 其 是 亚马逊 ， 它 已 经 开始 在 原 有 产品 
上 建立 并 提供 许多 平台 化 的 服务 ， 甚 至 尝试 发 布 了 几 个 成 熟 的 和 和 SaaS 有关 的 应 用 程序 服务 。 可 以 认为 ， 亚 马 逊 提供 的 云 服务 包 
括 了 以 上 三 种 。 


10.2 私有 云 与 公有 云 计算 

如 果 你 对 前 面 提 到 的 |、P、S 感 到 疑惑 ， 可 以 通过 比较 私有 云 和 公有 云 之 间 的 不 同 来 搞 清 楚 。 在 搭建 云 计算 平台 时 ， 用 户 往 
往 会 按照 以 下 顺序 开始 思 

1) 亚马逊 作为 第 一 个 云 计 算 提供 商 ， 向 公众 提供 公有 云 计 算 服 务 。 


2) 许多 IT 企业 在 考虑 接受 Amazon Web Services (AWS) 时 ， 会 思考 为 何不 在 自己 的 数据 中 心 内 部 措 建 一 套 类 似 AWs 的 
服务 ， 并 只 对 内 提供 服务 。 这 种 云 被 称 为 私有 云 。 


3) 接 下 来 ， 一 些 托管 服务 提供 商会 认为 他 们 可 以 将 其 数据 中 心 的 单独 区 域 提供 给 IT 客户 ， 让 客户 建立 自 有 云 。 这 种 概念 被 
称 为 私有 云 计 算 ， 因 为 它 专用 于 一 个 用 户 。 不 过 这 种 私有 云 上 的 数据 是 在 共享 网 络 中 进行 传输 ， 它 真 的 私有 吗 ? 


4) 最 后 ， 公 司 可 能 不 会 只 选择 公有 云 或 私有 云 ， 混 合 云 指 的 就 是 同时 使 用 私有 云 和 公有 云 环 境 。 


随 着 企业 在 云 中 的 进一步 漫游 ， 可 能 会 遇 到 如 何 选择 云 环境 的 问题 。 无 论 选择 公有 / 私有 / 混合 云 ， 公 有 云 计 算 无 疑 都 将 成 
为 每 个 公司 IT 环境 的 重要 组 成 部 分 。 此 外 ， 亚 马 逊 几乎 肯定 是 公有 云 计算 的 最 大 提供 商 ， 因 此 计划 在 未 来 支持 AWS 是 有 意义 


如 果 想 进一步 深入 了 解 云 计算 的 定义 ， 请 看 NIST 的 完整 描述 : http://cstc.nist.gov/publications/nistpubs/800-145/SP800- 


145.pdf。 美 国联 邦 政 府 一 直 是 云 的 早期 使 用 者 和 参与 者 ， 并 且 NIST 已 经 被 指定 建设 政府 级 别 的 云 计算 资源 。 


10.3 ”laaS 上 典型 平台 一 一 亚马逊 云 平台 AWS 





laaS (Infrastructure-as-a-Service) 平台 的 典型 代表 商 就 是 亚马逊 云 平 台 AWS， 作 为 全 球 云 计 算 行 业 的 鼻祖 与 先驱 
者 ，AWS 能 为 企业 提供 一 整套 基础 设施 和 云 解 决 方案 。 在 此 ， 我 们 以 AWS 为 例 ， 介 绍 laas 平 台 。 


1. 亚 马 逊 AWS 平 台 简 介 


2006 年 3 月 ， 亚 马 逊 正式 推出 云 计算 平台 AWS。AWS 提 供 的 第 一 个 服务 是 Simple Storage Service (简单 存储 服务 ， 简 
称 “S3”) 。S3 背 后 的 设计 理念 很 简单 : 在 Web 上 提供 对 象 存 储 ， 任 何人 都 可 以 上 传 一 个 对 象 (一 串 二 进 制 字 节 ) 到 S3。 这 些 
字 节 可 以 是 数字 照片 、 文 件 备份 、 软 件 包 、 视 频 、 音 频 或 电子 表格 。 


S53 在 第 一 次 发 布 时 功能 很 有 限 。 尽 管 对 象 可 以 在 任意 地 点 读 取 和 写 入 ， 但 它 只 能 选择 美国 区 域 存储 。 此 外 ， 对 象 不 能 大 于 
5GB 一 一 在 某 些 情 况 下 已 经 够 用 ， 但 肯定 比 一 些 用 户 想 要 存储 的 文件 容量 要 小 。 对 象 只 支持 有 限 的 几 个 操作 ( 读 、 写 和 删 
除 ) ， 仅 此 而 已 。 


在 开始 的 六 年 里 ，S3 在 所 有 方面 都 有 增长 ， 如 今 在 世界 各 地 都 有 S3 的 存储 区 域 。 对 象 现在 可 以 支持 最 大 5TB。S3 还 可 以 提 
供 更 多 关于 对 象 存储 的 功能 。 对 象 现 在 可 以 有 一 个 销毁 日 期 ， 例 如 : 可 以 设置 日 期 和 和 时间， 在 该 日 期 之 后 对 象 不 再 可 访问 。 (如 
果 想 让 视频 仅 在 特定 时 间 段 观看 ， 例 如 接 下 来 的 两 周 ， 此 功能 可 能 很 有 用 。) S3 现 在 也 可 托管 网 站 ， 换 名 话说 ， 单 个 页 面 可 以 
存储 为 对 象 ， 然 后 域名 (例如 www.example.com) 可 以 指向 提供 页 面 的 S3 服 务 。 


在 开通 之 后 几 个 月 里 ，S3 不 再 是 AWs 提 供 的 唯一 服务 。 亚 马 逊 发 布 了 简单 队列 服务 (SQS) ， 它 提供 了 一 种 在 不 同 程序 之 
间 传 递 消息 的 方法 。SQS 可 以 在 AWS 中 或 外 部 环境 的 不 同 程序 间 传 递 消息 (例如 Web 浏 览 器 ) ， 并 可 用 于 构建 高 度 可 扩展 的 分 


之 后 ，Elastic Compute Cloud ( 称 为 EC2) 发 布 了 。 作 为 AWS 计 算 服 务 ，EC2 可 以 根据 需求 提供 计算 能 力 ， 即 时 可 用 且 对 


容量 没有 限制 。 


AWS 的 整体 模式 是 逐步 增加 服务 ， 并 随 着 时 间 的 推移 快速 提升 每 项 服务 的 质量 。AWS 现 在 由 超过 25 种 不 同 的 服务 组 成 ， 这 
些 服务 大 多 通过 不 同 的 配置 提供 不 同 功 能 。 这 些 服务 可 以 根据 想象 和 实际 需求 混合 使 用 以 创建 有 趣 和 独一无二 的 应 用 程序 。 


仅仅 用 了 六 年 时 间 ，AWS 就 从 一 个 简单 服务 (S3) 发 展 到 超过 25 个 服务 ， 并 且 如 今 还 在 全 世界 范围 内 不 断 发 展 和 成 长 。 你 
可 能 对 这 一 切 发 生 的 速度 印象 深刻 。 不 止 你 一 人 有 这 样 的 感受 ， 在 行业 内 ， 亚 马 逊 由 于 AWs 功 能 的 快速 发 布 ， 令 人 既 敬 畏 又 鲜 


2. 亚 马 逊 的 软件 基础 架构 战略 


由 于 亚马逊 的 低 利润 、 高 度 扩展 的 需求 ， 我 们 可 能 会 推测 出 运行 在 其 硬件 环境 中 的 云 计 算 软 件 设施 是 经 过 特殊 设计 和 实现 
的 。 实 际 情况 确实 如 此 。 


亚马逊 为 提供 云 计 算 服 务 ， 而 创造 了 一 个 独一无二 、 高 度 专业 化 的 软件 环境 。 为 什么 说 独一无二 ”因为 乍 一 看 ， 人 们 常会 发 
现 AWs 的 不 同 寻常 和 混乱 一 一 这 有 有 异 于 以 往 遇 到 的 任何 其 他 计算 环境 。 





然而 ， 在 用 户 真 正 了 解 AWS 如 何 运 行 之 后 ， 通 常会 发 现 其 设计 的 含义 ， 它 适用 什么 一 更 重要 的 是 ， 用 户 将 如 何 使 用 这 些 
服务 。 


昌 然 亚马逊 对 其 硬件 环境 采用 了 不 同 寻常 的 设计 ， 但 在 软件 基础 设施 里 ， 才 真正 凸显 了 其 独特 性 。 下 面 概述 AWS 的 功能 特 


No 


(1) 基于 虚拟 化 


虚拟 化 一 一 从 底层 硬件 依赖 抽象 出 的 软件 层 一 一 相当 于 AWS 的 心脏 。 它 能 够 创建 、 启 动 、 终 止 和 快速 重启 虚拟 机 。 这 一 切 
使 AWS 的 服务 成 为 可 能 。 


正如 所 期 望 的 ， 亚 马 逊 使 用 特殊 方式 实现 虚拟 化 。 亚 马 逊 需要 低 成 本 的 虚拟 化 技术 ， 所 以 它 选择 了 开源 Xen 管 理 程序 作为 其 
软件 基础 。 然 后 对 “vanilla”Xen 产 品 进行 了 大 幅度 的 定制 修改 ， 以 满足 AWS 的 需求 。 


这 种 做 法 导致 亚马逊 虽然 采用 虚拟 化 技术 ， 但 它 的 解决 方案 做 了 大 量 扩展 以 支持 大 规模 服务 。 
(2) 运 维 即 服务 
大 家 肯定 想 说 : “这 当然 是 运 维 即 服务 ， 这 就 是 为 什么 它 被 称 为 Amazon Web Services! “ 


是 的 ， 亚 马 示 必须 创建 一 个 大 型 的 软件 基础 设施 ， 以 将 计算 能 力作 为 一 种 服务 提供 给 用 户 。 例 如 亚马逊 必须 为 用 户 建立 一 种 
远程 操作 AWS 资 源 的 方法 ， 而 无 需 在 本 地 手工 操作 。 它 必须 以 确保 安全 性 的 方式 将 用 户 的 资源 与 其 他 人 的 资源 隔离 ， 因 为 没 人 
希望 其 他 用 户 可 以 查看 、 访 问 或 更 改 自己 的 资源 。 





亚马逊 必须 提供 一 组 接口 一 一 应 用 程序 编程 接口 (API) ， 人 允许 用 户 管理 AWS 的 各 部 分 。 
(3) 设计 灵活 


亚马逊 将 AWS 设 计 成 用 户 需要 的 方式 ， 即 用 户 需 要 丰富 的 计算 服务 以 满足 应 用 需求 和 持续 变化 的 业务 需求 。 换 名 话说， 正 
如 亚马逊 无 法 预测 一 到 两 年 内 它 的 计算 需求 是 什么 一 样 ，AWS 也 不 能 。 


在 这 种 情况 下 ， 对 服务 采用 尽量 少 的 约束 是 有 意义 的 。 因 此 ， 亚 马 示 不 提供 一 组 紧密 集成 的 服务 ， 而 只 提供 几 种 使 用 它们 的 
方法 。 亚 马 逊 提供 一 组 高 细 粒 度 的 服务 ， 使 得 用 户 可 以 “混合 和 匹配 ”以 创建 满足 其 确切 需求 的 应 用 程序 。 


通过 以 高 度 灵 活 的 方式 设计 服务 ， 亚 马 逊 使 其 客户 具有 了 创造 性 ， 从 而 支持 创新 。 在 本 书 中 ， 我 们 将 介绍 一 些 正 在 使 用 
AWs 的 公司 的 有 趣 案例 。 


不 仅 计算 服务 本 身高 度 灵活 ，AWS 的 使 用 条 件 也 很 灵活 ， 在 开始 只 需 提供 电子 邮箱 和 信用 卡 即 可 。 


(4) 高 弹性 


如 果 大 家 还 记得 前 几 章 提 到 的 关于 硬件 不 可 靠 的 内 容 ， 那 现在 将 认识 到 是 无 法 单纯 通过 硬件 来 实现 弹性 的 。 亚 马 逊 的 实现 方 
式 是 使 用 软件 。 


亚马逊 通过 资源 元 余 (使 用 资源 的 多 个 副本 ) 来 确保 AWs 的 高 度 弹性 ， 保 证 单个 资源 的 故障 不 会 导致 服务 失败 。 例 如 ， 在 
S3 服 务 中 仪 存储 每 个 对 象 的 一 个 副本 ， 大 其 所 在 磁盘 损坏 则 会 导致 该 对 象 不 可 用 。 相 反 ，AWs 保 留 对 象 的 多 个 副本 ， 确 保 即 使 
因 硬件 故障 导致 一 个 或 两 个 对 象 不 可 用 ， 用 户 也 依然 可 以 访问 对 象 ， 从 而 提高 93 的 可 靠 性 和 稳定 性 。 


总 而 言 之 ， 亚 马 逊 已 经 建立 了 丰富 的 软件 基础 架构 ， 以 允许 用 户 以 低廉 的 价格 访问 大 量 计算 资源 。 
3.AWS 生态 系统 


到 目前 为 止 ， 我 们 还 没有 深入 AWs 的 各 个 部 分 ， 但 是 应 该 清楚 (如 果 大 家 完整 地 阅读 本 章 ) 亚马逊 为 用 户 提供 了 一 组 服 
务 。 然 而 ，AWS 托 管 的 服务 远 比 自身 提供 的 更 丰富 。 用 户 可 在 AWS 生 态 系统 中 获取 托管 在 AWS 上 由 亚马逊 合作 伙伴 和 第 三 方 提 
供 的 各 种 服务 。 事 实 上 ， 用 户 几 乎 可 以 在 AWS 中 找到 任何 需要 的 服务 ， 以 创建 想 要 实现 的 任何 应 用 程序 。 


因此 ， 除 AWS 自 己 提供 的 25+ 服 务 之 外 ， 用 户 还 可 获取 以 下 服务 : 


* 提供 预 安装 和 配置 软件 组 件 的 虚拟 机 ， 以 方便 快速 使 用 。 


图 像 处 理 。 


* 视频 传输 。 


* 应 用 程序 集成 。 


- 应 用 程序 性 能 监测 。 


* 应 用 程序 安全 性 监测 。 


` 运营 结算 和 订阅 。 


. 医疗 保险 索赔 管理 。 
房产 买卖 。 

“ 基因 组 数据 分 析 。 
网 站 托管 。 

. 客户 支持 。 


实际 上 ， 上 述 只 是 AWSs 可 以 提供 的 极 少 一 部 分 服务 。 在 某 种 程度 上 ，AWs 是 一 个 现代 化 的 集 市 ， 它 提供 了 令 人 难以 置信 、 
丰富 的 计算 能 力 ， 所 有 人 都 可 以 选择 开设 商店 去 为 其 他 人 提供 服务 。 


仔细 观察 ， 可 以 看 到 AWS 生 态 系统 由 三 个 不 同 的 子 系统 组 成 : 


亚马逊 提供 的 AWS 计 算 服 务 : 如 上 所 述 ， 亚 马 逊 目前 提供 超过 25 个 AWS 服 务 ， 并 在 持续 更 新 。AWS 提 供 了 大 量 的 云 计 算 
服务 ， 在 本 书 中 ， 我 们 将 介绍 其 中 的 许多 服务 。 


. 运行 在 AWS 上 由 第 三 方 提供 的 服务 : 这 些 服 务 能 够 帮助 建立 一 个 AWS 并 不 提供 的 应 用 。 例 如 AWS 提 供 一 些 计 费 功能 ， 使 
用 户 可 以 建立 收费 的 应 用 程序 ， 但 AWS 服 务 不 支持 诸多 计 费 方式 。 例 如 ， 依 据 公 司 规模 的 用 户 折扣 。 许 多 公司 (甚至 个 人 ) 提 
供与 AWS 互 补 的 服务 ， 从 而 允许 用 户 更 快 地 构建 更 丰富 的 应 用 程序 。 


- 运行 在 AWS 上 由 第 三 方 提供 的 完整 应 用 程序 : 可 以 使 用 这 些 通常 被 称 为 SaaS (软件 即 服 务 ) 的 服务 ， 通 过 网 络 ， 无 需 在 自 
己 的 硬件 中 安装 它们 。 许 多 公司 将 应 用 托管 在 AWS 上 的 原因 和 终端 用 户 相 同 : 低 成 本 、 易 访问 和 高 可 扩展 性 。AWS 中 一 个 有 趣 
的 现象 是 传统 软件 供应 商 正 逐步 将 其 应 用 程序 迁移 到 AWS 上 ， 并 将 其 作为 SaaS 服 务 提 供 ， 而 不 再 提供 本 地 电脑 CD 或 者 DVD 形 式 


的 安装 。 


在 使 用 AWS 的 过 程 中 ， 请 小 心 辨别 AWS 生 态 系统 中 这 三 种 产品 之 间 的 差异 ， 尤 其 是 亚马逊 在 这 三 种 产品 中 扮演 的 角色 差 
异 。 尽 管 第 三 方 服务 或 Saas 应 用 对 计算 工作 很 有 帮助 ， 但 亚马逊 对 其 功能 或 性 能 不 提供 任何 支持 或 保证 。 由 用 户 决定 所 选择 的 
非 AWs 官 方 服务 是 否 满足 需求 。 


亚马逊 为 使 第 三 方 服 务 更 容易 查找 和 集成 ， 建 立 了 亚马逊 市 场 。 此 外 ， 市 场 上 的 部 分 软件 经 过 亚马逊 认证 ， 这 会 使 用 户 在 选 
择 市 场 中 的 应 用 程序 时 更 有 信心 。 


4. 计 算 网 络 效应 的 效益 


网 络 效 应 的 存在 ， 使 AWS 能 够 获取 网 络 衍生 价值 ， 逐 渐 构 成 整个 WS 生态 系统 。 网 络 效 应 的 经 典 案例 是 手机 : 使 用 手机 的 
人 越 多 ， 从 手机 获取 的 价值 越 大 ， 这 是 因为 使 用 的 手机 数量 越 多 ， 就 越 容 易 和 大 量 的 人 沟通 。 相 反 ， 如 果 你 是 城 里 唯一 有 手机 的 
人 ， 那 么 将 相当 孤独 ， 而 不 是 非常 健谈 ! 换 句 话说 ， 对 于 具有 网 络 效应 的 服务 ， 使 用 它 的 人 越 多 就 对 其 他 潜在 用 户 越 有 吸引 力 ， 
使 用 服务 给 他 们 带 来 的 价值 也 就 越 大 。 


从 AWs 的 角度 看 ， 网 络 效应 意味 着 ， 如 果 提 供 了 一 种 新 的 基于 云 的 服务 ， 那 么 自然 而 然 就 会 想 要 选择 云 用 户 多 的 平台 ， 例 
如 AWS。 这 种 仅仅 是 用 户 数 多 的 网 络 效应 非常 有 利于 AWS 的 友 展 。 当 开发 者 开始 考虑 做 云 计算 应 用 的 时 候 ， 自 然 被 吸引 到 AWS 
上 ， 因 为 它 是 一 个 被 大 众 认 可 的 品牌 。 


相对 于 AWS， 还 有 一 个 比 用 户 数 更 大 的 网 络 效应 : AWS 的 技术 。 


服务 与 服务 之 间 在 互联 网 上 通信 ， 本 身 会 耗费 一 定量 的 时 间 ， 即 使 信息 以 光速 传输 依然 需要 一 定 的 时 长 。 此 外 ， 虽 然 信息 是 
在 互联 网 上 传递 ， 但 还 是 会 被 不 停 地 路 由 以 保证 传输 方向 的 正确 性 。 网 络 长 度 和 设备 交互 的 这 种 组 合 被 称 为 延迟 ， 延 迟 的 大 小 由 
网 络 传输 距离 决定 。 


具体 而 言 ， 如 果 用 浏览 器 访问 距离 50 英 里 (1 英里 1.609 干 米 ) 的 网 站 ， 它 可 能 会 比 访问 距离 你 7000 英 里 的 网 站 的 响应 速 
度 更 快 。 


油 


往 下 延伸 ， 使 用 近 距 离 的 服务 将 使 应 用 程序 运行 更 快 ， 这 总 是 有 利 的 。 所 以 ， 如 果 用 户 的 服务 在 AWS 上 运行 ， 那 他 们 也 会 
倾向 于 选择 运行 在 AWS 上 的 其 他 服务 。 这 样 应 用 程序 的 延迟 会 比 使 用 远 端 服务 带 来 的 延迟 更 低 。 


搭建 服务 的 开发 人 员 往 往 是 聪明 的 ， 他 们 会 发 现 潜在 客户 喜欢 就 近 提 供 的 服务 。 如 果 用 户 正 在 建立 一 个 新 服务 ， 他 们 会 因为 
周边 有 很 多 其 他 服务 而 选择 AWS。 如 果 他 们 考虑 使 用 云 服务 ， 那 很 可 能 会 选择 AWS。 从 服务 可 用 性 和 低 延 迟 的 角度 来 看 ， 使 用 
AWS 上 的 服务 将 使 他 们 更 容易 地 建立 应 用 程序 。 


AWS 的 网 络 效应 可 以 给 用 户 提 供 丰 富 的 服务 ， 从 而 促使 他 们 在 AWS 上 创建 应 用 。 他 们 可 以 减轻 工作 量 ， 通 过 减少 与 大 量 传 
统 外 部 软件 组 件 和 服务 交互 的 负担 ， 加 快 应 用 程序 的 开发 和 交付 。 


以 下 是 一 些 利 用 AWS 生 态 系 统 的 网 络 效 应 所 带 来 的 好 处 : 


. 服务 启动 并 运行 人 在 AWS 上 。 无 需 获取 、 安 装 、 配 置 、 测 试 软件 ， 可 将 其 直接 集成 到 用 户 的 应 用 程序 中 。 因 为 这 些 应 用 程 
序 已 运行 在 AWS 环 境 上 ， 用 户 可 以 直接 跳 到 技术 集成 这 一 步 。 


. 云 许可 服务 。 服 务 供应 商 已 经 想 出 如 何在 AWS 上 发 布 软件 并 计 费 。 服 务 商 常 参考 AWS 这 种 按 小 时 或 包月 的 计 费 方式 。 无 
需 考虑 预先 的 大 量 许可 费 和 服务 如 何在 AWS 中 运行 。 


- 服务 运 维 。 无 需 关心 软件 组 件 在 AWS 上 的 运行 情况 ， 服 务 供 应 商会 负责 维护 。 用 户 需要 工业 级 的 运 维 支持 ， 而 不 是 不 恰 
当地 投入 精力 。 


性 能 提高 。 因 为 服务 运行 在 和 应 用 程序 相同 的 环境 中 ， 所 以 它 会 通过 降低 延迟 来 提升 应 用 程序 的 性 能 。 


因此 ， 在 用 户 开始 考虑 寻找 可 以 集成 到 应 用 程序 的 软件 包 或 编写 特定 功能 的 组 件 之 前 ， 通 常会 搜索 AWS 服 务 市 场 看 看 是 否 
有 服务 可 以 提供 类 似 功能 。 


5.AWS 与 其 他 云 提 供 商 的 对 比 


自由 市 场 不 允许 企业 垄断 ， 按 理 说 ， 竞 争 对 手 总 是 会 进入 一 个 具有 了 吸引 力 的 市 场 。 云 计算 也 是 : 云 计算 市 场 存在 很 多 云 提供 
商 。 当 然 ， 大 家 会 想 要 了 解 AWS 的 应 对 措施 。 


AWs 和 几乎 所 有 云 服务 提供 商 最 大 的 区 别 在 于 它们 服务 的 目标 市 场 。 想 了 解 这 一 内 容 ， 我 们 必须 了 解 它们 提供 服务 的 基 
础 。 


亚马逊 建立 AWS 的 目标 是 为 了 开发 人 员 可 以 快速 创建 和 部 署 应 用 程序 。 该 服务 专注 于 让 开发 人 员 发 挥 生 产 力 ， 总 的 来 说 就 
是 让 开发 人 员 感 到 更 愉悦 。 


相 比 之 下 ， 其 他 多 数 云 提供 商 是 从 主机 托管 发 展 而 来 : 他 们 的 背景 包括 为 IT 机 构 运 维 硬件 基础 设施 、 保 障 系统 正常 运行 。 主 
机 托管 商 主 张 的 价值 是 维持 基础 设施 的 高 质量 ， 也 就 是 他 们 的 服务 器 、 网 络 、 存 储 等 。 


这 种 企业 级 云 提 供 商 的 传统 特点 体现 在 以 下 几 个 方面 : 
: 重点 关注 IT 运 维 而 不 是 开发 者 。 通 常情 况 下 ， 这 代表 “服务 难以 使 用 。 例 如 ， 企 业 级 云 提供 商 在 开通 服务 前 会 和 销售 代 
表 反 复 沟 通 ， 并 通过 手工 流程 建立 账户 。 相 反 ，AWS 只 需 用 户 使 用 电子 邮箱 和 信用 卡 即 可 。 


* 服务 类 似 于 传统 的 托管 服务 ， 其 功能 和 使 用 方式 完全 是 模拟 物理 服务 器 的 运行 过 程 。 通 常 ， 企 业 云 提供 商 只 给 单独 主机 提 
供 存储 服务 ， 不 支持 类 似 S3 的 对 象 存储 ， 因 为 这 不 是 典型 托管 环境 的 一 部 分 。 


: 企业 云 服务 商 提 供 的 特定 云 服 务 往 往 需要 用 户 签订 长 期 使 用 协议 。 虽 然 这 种 策略 使 得 提供 商 可 以 更 容易 地 规划 业务 ， 但 是 
对 用 户 来 说 很 不 合适 ， 而 且 他 们 会 事先 声明 想 要 免责 和 规避 的 问题 。 





相 比 AWS， 使 用 企业 级 设备 会 带 来 更 高 的 成 本 。 我 们 看 到 过 一 些 企业 云 提供 商 的 价格 是 AWs 的 8 倍 。 根 据 公 司 需求 和 应 用 
本 身 的 情况 ， 这 类 选择 企业 云 的 客户 有 意愿 承担 高 昂 的 价格 ; 而 另 一 方面 ， 高 昂 的 价格 和 长 期 的 使 用 协议 令 用 户 无 法 接受 ， 并 使 
服务 失去 吸引 力 。 


影子 IT 的 崛起 


对 于 无 法 及 时 获取 服务 器 资源 的 抱怨 导致 了 影子 IT 这 种 现象 的 产生 : 开发 者 彻底 绕 过 IT 而 获得 资源 。 这 种 现象 正 逐 渐 加 强 和 
增长 。 一 位 CIO 声称 他 审查 了 提交 给 他 的 报销 费用 报告 后 发 现 ， 他 的 开发 团队 使 用 了 超过 50 个 不 同 的 AWS 账 户 。 


仔细 思考 : 影子 IT 是 一 个 有 点 贬义 的 词 ， 它 代表 暗地里 和 明确 的 非法 行为 。 另 一 方面 ， 赞 成 影子 IT 的 人 认为 依靠 现 有 流程 完 
成 工作 ， 仅 获取 资源 就 需 耗 费 几 个 月 的 时 间 。 


这 种 矛盾 不 大 可 能 在 近期 解决 。 开 发 者 棠 尚 AWS 的 自由 度 和 灵活 性 ， 尽 管 还 有 许多 IT 组 织 徒劳 地 想 回 到 他 们 制定 规则 的 那 
种 “过 去 的 好 时 光 ”。 


矛盾 将 最 终 由 开发 者 的 选择 而 解决 。 原 因 很 简单 : 应 用 程序 是 IT 获取 商业 价值 的 途径 ， 并 且 应 用 经 常会 直接 创造 二 次 价值 
(比方 说 ， 一 个 在 线 购 买 商 品 和 服务 的 应 用 程序 ) 。 基 础 设施 一 一 主流 IT 的 不 可 避免 接触 的 领域 ， 会 变 成 支持 应 用 程序 的 管道 。 


开发 者 掌握 的 这 些 优 势 可 在 云 计 算 的 市 场 份额 中 看 出 端倪 。 一 位 技术 分 析 师 估计 ，AWS 占 据 云 提供 商 75% 的 市 场 份额 。 我 们 
希望 企业 云 提供 商 能 感受 到 压力 ， 从 而 使 服务 对 开发 者 更 友好 。 不 过 亚 马 进 的 领先 地 位 很 难 被 超越 。 


当 分 析 亚 马 逊 相 比 其 他 竞争 对 玫 ， 匹 配 NIST 关 于 云 计 算 定 义 的 程度 (在 最 开始 章节 讨论 的 内 容 ) 时 ，AWs 通 常 是 胜出 的 。 
在 某 种 程度 上 ， 这 是 因为 AWS 是 先驱 ， 而 第 一 个 市 场 进入 者 会 定义 市 场 规则 。 昌 然 不 止 是 如 此 。 


亚马逊 的 高 明之 处 在 于 将 一 个 创新 产品 推 向 了 糟糕 的 传统 IT 服务 行业 。 尽 管 托管 公司 的 IT 运 维 工作 做 得 不 算 差 ， 但 他 们 重视 
的 是 企业 级 设备 和 服务 的 可 用 性 而 不 是 开发 者 对 资源 的 可 访问 性 。 在 行业 内 ， 为 了 分 配 一 人 台 服 务 器 而 等 待 几 周 或 几 个 月 的 事情 时 
有 上 发生。 可 以 想象 ， 开 发 者 (和 产品 经 理 、 主 管 ) 需要 另 一 种 做 事 的 方式 一 一 就 像 AWS 提 供 的 那样 。 





10.4 PaaS 典 型 平台 


PaaS (Platform-as-a-Service) 【1] 的 核心 在 于 平台 层 能 力 由 终端 向 云端 的 集中 化 迁移 ， 平 台 涉 及 业务 平台 和 技术 平台 ， 
此 涉及 两 级 平台 的 云 化 。 技 术 平 台 涉及 底层 数据 库 、 中 间 件 ， 也 涉及 在 这 个 上 面 进行 的 二 次 封装 ， 这 些 都 是 需要 考虑 云 化 的 内 
容 。 由 于 在 没有 谈 PaaS 平 台 前 ,我们 已 经 在 考虑 技术 平台 和 产品 平台 的 建设 ， 因 此 这 些 平台 建设 经 验 在 构建 PaaS 基 础 平台 的 时 
候 同样 适用 ， 平 台 即 服务 ， 即 平台 层 的 能 力 转 化 为 一 种 服务 。 典 型 的 Paas 平 台 包括 Heroku、Microsoft Azure、Google App 


Engine、Force.com 等 。 下 面 我 们 进行 简要 介绍 四。 
1. 微 软 Windows Azure 


2008 年 ， 软 件 巨头 微软 推出 了 基于 云 计算 的 操作 系统 Windows Azure。 目 前 Windows Azure 已 成 长 为 全 球 三 大 企业 级 云 
服务 平台 之 一 。 


作为 PaaS 平 台 的 典型 代表 ，Windows Azure 为 开发 者 提供 了 一 个 平台 ， 帮 助 开 发 可 运行 在 云 服务 器 、 数 据 中 心 、Web 和 
PC 上 的 应 用 程序 。 云 计算 的 开发 者 能 使 用 微软 全 球 数 据 中 心 的 储存 、 计 算 能 力 和 网 络 基础 服务 。Azure 服 务 平台 组 件 主 要 包 
括 : Windows Azure; Microsoft SQL 数据 库 服 务 ，Microsoft.Net 服 务 ; 用 于 分 享 、 储 存 和 同步 文件 的 Live 服 务 ; 针对 商业 的 


Microsoft SharePoint 和 Microsoft Dynamics CRM 服 务 Bl] 
在 微软 的 Microsoft Azure 中 ， 主 要 提供 以 下 四 大 类 型 的 服务 向。 
(1) 计算 服务 


Microsoft Azure 网 络 计算 服务 可 提供 云 应 用 程序 运行 所 需 的 处 理 能 力 。Microsoft Azure 当 前 可 提供 四 种 不 同 的 计算 服 
务 。 


1) 虚拟 机 : 这 项 服务 可 提供 通用 计算 环境 ， 用 户 可 以 在 其 中 创建 、 部 署 并 管理 运行 在 Microsoft Azure 上 的 虚拟 机 。 


2) 网 站 : 这 项 服务 可 以 为 用 户 提 供 托管 的 Web 环境 ， 用 户 可 以 在 其 中 创建 新 的 网 站 或 是 将 组 织 现 有 的 网 站 迁移 到 


Microsoft Azure 云 中 。 


3) 云 服务 : 这 项 服务 可 运行 用 户 构建 并 部 署 的 高 度 利用 并 且 可 无 限 扩展 的 应 用 程序 ， 而 且 管 理 成 本 极 低 ， 可 以 使 用 几乎 所 
有 的 编程 语言 以 及 现 有 的 开发 技能 。 


(2) 网 络 服务 


Microsoft Azure 网 络 提 供 了 不 同 的 方案 ， 帮 助 选择 Microsoft Azure 应 用 程序 如 何 交付 给 用 户 和 数据 中 心 ， 以 中 国 版 的 
Microsoft Azure 为 例 ， 所 能 够 提供 的 服务 如 下 。 


1) 虚拟 网 络 : 这 项 服务 允许 用 户 将 Microsoft Azure 的 公有 云 作为 组 织 现 有 的 本 地 数据 中 心 的 扩展 。 


2) 流量 管理 器 : 这 项 服务 允许 通过 以 下 三 种 方式 为 使 用 应 用 程序 的 用 户 将 应 用 程序 流量 路 由 到 Microsoft Azure 数据 中 
心 : 获取 最 佳 性 能 、 轮 询 方式 或 使 用 主动 /被 动 故障 转移 配置 。 


(3) 数据 服务 


Microsoft Azure 数 据 服务 可 以 提供 存储 、 管 理 、 保 障 、 分 析 和 报告 企业 数据 的 不 同方 式 。 其 中 比较 有 代表 性 的 功能 如 下 : 


1) 数据 管理 : 通过 使 用 这 项 服务 ， 可 以 在 SQL 数据 库 中 存储 企业 数据 ， 可 以 存储 在 专用 的 Microsoft SQL Server 虚 拟 机 
中 ， 使 用 Microsoft Azure SQL 数据 库 ， 通 过 REST 使 用 NoSQL 表 ， 或 者 使 用 BLOB 存 储 。 


2) 业务 分 析 : 这 项 服务 通过 使 用 Microsoft SQL Server 报 告 和 分 析 服 务 ， 或 运行 虚拟 机 中 的 Microsoft SharePoint 
Server、Microsoft Azure SQL 报告 、Microsoft Azure SQL Marketplace 或 HDInsight， 即 面向 大 数据 的 Hadoop 实现 。 


3) HDInsight: 这 是 微软 基于 Hadoop 的 服务 ， 可 为 云 带 来 100% 的 Apache Hadoop 的 解决 方案 。 


4) 恢复 管理 器 : Microsoft Azure Site Recovery 可 通过 协调 在 辅助 位 置 的 System Center 私 有 云 的 副本 ， 以 及 使 用 
Windows Azure Online Backup 云 端 备份 与 恢复 来 保护 企业 的 重要 服务 。 


(4) 应 用 程序 服务 
Microsoft Azure 的 应 用 程序 服务 可 以 提供 各 种 方式 以 增强 云 应 用 程序 的 性 能 、 安 全 、 发 现 能 力 和 继承 性 。 
1) 媒体 服务 : 这 项 服务 允许 用 户 使 用 Microsoft Azure 的 公有 云 为 媒体 的 创建 、 管 理 和 发 布 建立 工作 流程 。 


2) 消息 传递 : 包括 两 项 服务 (Microsoft Azure Service Bus 和 Microsoft Azure Queue) ， 可 以 帮助 应 用 程序 在 私有 云 环 
境 Microsoft Azure 公 有 云 下 保持 连接 。 


3) 通知 中 心 : 这 项 服务 为 运行 在 移动 设备 的 应 用 程序 提供 了 一 个 高 度 可 扩展 的 跨 平台 推送 通知 基础 架构 。 


4) BizTalk 服 务 (国际 版 ) : 这 项 服务 可 以 提供 企业 对 企业 (B2B) 和 企业 级 应 用 程序 集成 (EAI) 的 能 力 ， 以 交付 和 混合 
集成 解决 方案 。 


5) Active Directory: 这 项 服务 为 云 应 用 程序 提供 了 身份 管理 和 访问 控制 能 力 。 
6) 多 因素 验证 : 除了 用 户 账户 凭据 外 ， 这 项 服务 还 可 提供 额外 的 验证 层 ， 以 便 实 现 本 地 和 云 应 用 程序 更 安全 的 访问 。 
2.IBM SmartCloud 


作为 世界 上 项 级 的 上 T 企 业 ，1BM 当然 不 会 错过 在 云 计算 领域 大 显 身手 的 机 会 。 用 IBM 的 话说 ，SmartCloud 专 为 运行 企业 级 
应 用 而 设计 ， 同 时 承诺 以 商务 为 核心 的 服务 等 级 协议 。 


IBM 将 Paas 世 界 分 为 两 大 类 : 旧 的 应 用 程序 通过 云 计 算 转换 交付 ， 以 及 在 Paas 的 环境 中 从 头 建 立新 的 应 用 程序 。1BM 有 一 
系列 的 云 产 品 ， 包 括 PureSystems 和 SmartCloud 工 具 ， 人 允许 原始 数据 和 应 用 程序 迁移 到 新 的 PaaS 环 境 中 。 一 体 化 服务 的 关键 是 
将 旧 的 应 用 程序 迁移 到 云 中 ， 并 人 允许 PaaS 环 境 与 laaS 进 行 交 互 。 


IBM 云 服务 的 主要 组 成 部 分 如 下 : 

“ 以 SmartCloud Application Services 为 代表 的 新 一 代 PaaS 解 决 方案 。 

- 由 硬件 和 软件 组 成 的 SmartCloud Foundation 可 以 帮助 客户 部 署 自己 的 云 系 统 。 

. SmattCloud Ecosystem 咨 询 服务 可 以 帮助 客户 使 用 云 模 型 以 及 管理 基于 云 的 业务 。 
3.VMware Cloud Foundry 


Cloud Foundry 诞 生 于 2011 年 ， 被 VMware 冠 名 为 业界 第 一 个 开源 Paas 云 平台 。Cloud Foundry 支 持 多 种 框架 、 语 言 、 运 
行 时 环境 、 云 平台 及 应 用 服务 ， 使 开发 人 员 能 够 在 几 秒 内 进行 应 用 程序 的 部 署 和 扩展 ， 无 需 担心 任何 基础 架构 的 问题 。 同 时 , 它 


本 身 是 一 个 基于 Ruby on Rails 的 由 多 个 相对 独立 的 子 系统 通过 消息 机 制 组 成 的 分 布 式 系统 ， 使 平台 在 各 层级 都 可 水 平 扩展 ， 既 
能 在 大 型 数据 中 心里 运行 ， 也 能 运行 在 一 台 桌 面 电 脑 中 ， 二 者 使 用 相同 的 代码 库 。 


在 组 件 方面 ，Cloud Foundry 主 要 由 Router、Cloud Controller、Health Manager、DEA、NFS、NATS、Cloud 
Controller Database 以 及 Service 等 模块 组 成 。 这 些 模块 协同 合作 ， 通 过 特定 的 消息 传输 机 制 和 API 接 口 进行 通信 ， 以 使 整个 云 


平台 正常 运行 。 





Cloud Foundry 能 够 部 署 在 私有 云 或 公有 云 环境 中 ， 既 可 以 运行 在 vSphere/vCloud 架 构 之 上 ， 也 可 以 运行 在 其 他 laaS 之 
上 。 例 如 ，Cloud Foundry 可 以 部 署 在 AWS 之 上 ， 还 可 以 部 署 在 Eucalyptus 和 OpenStack 等 开源 平台 技术 之 上 。 


4.Heroku 


Heroku 是 可 支持 多 种 编程 语言 的 Paas 平 台 ， 现 隶属 于 Salesforce。Heroku 于 2007 年 开始 发 展 ， 作 为 最 早 的 云 平台 之 一 ， 
在 最 初 的 时 候 只 能 使 用 Ruby 编 程 语 言 ， 后 来 宣布 支持 Java、Node.js、Scala、Clojure、php 以 及 Python 多 种 语言 。 


Heroku 是 一 个 商业 的 Rails 主 机 托管 解决 方案 ， 提 供 的 是 “无 需 准备 的 部 署 服务 ”， 因 为 操作 和 扩展 都 是 自动 的 ， 无 需 任何 
系统 管理 。 但 是 相 较 于 其 他 服务 商 而 言 ，Heroku 目 前 的 价格 较 高 


为 适应 不 断 变 化 的 需求 ，Heroku 可 以 在 网 格 中 其 他 地 方 启动 新 的 完全 独立 的 dyno， 或 者 关闭 那些 闲置 的 dyno。dyno 的 启 
动 时 间 还 不 到 2 秒 ， 这 足以 证 明 Heroku 的 平台 无 比 强大 。 为 了 满足 更 高 需求 而 启动 新 的 dyno 实 例 时 ，Heroku 特 制 的 路 由 系统 可 
以 将 新 的 请 求 “ 冻 结 ”。 四 个 dyno 的 计算 性 能 相当 于 传统 环境 中 的 一 台 服 务 器 的 计算 性 能 。 

Heroku 的 网 格 本 身 建 于 一 个 强大 的 云 计 算 环境 中 ， 这 样 它 可 以 根据 需要 的 dyno 数 量 方便 地 进行 扩展 或 者 缩减 。 网 格 上 层 是 
一 个 成 熟 的 高 并 发 路 由 网 络 ， 它 承担 了 把 请 求 分 派 至 dyno 的 工作 。 还 有 一 些 额 外 的 元 件 ， 比 如 HTTP cache 和 memory cache， 
它们 分 别 用 来 减少 对 dyno 和 数据 库 的 访问 [51。 

[1 更 多 资料 : 透 过 三 个 典型 代表 畅谈 PaaS 的 前 世 今 生 (http://cloud.51cto.com/art/201509/490346_all.htm) 。 
[2] 资料 来 源 : http://tech.it168.com/a2013/0904/1529/000001529766_all.shtml。 
[3] 资料 来 源 : 百度 百科 (http://baike.baidu.com/item/Windows%20Azure?fromtitle=Azure&ftromid=4677794&type=syn) 


团 更 多 资料 可 参考 : https://www.azure.cn/documentation/articles/fundamentals-introduction-to-azure/。 


[5] 资料 来 源 : https://bbs.aliyun.com/read/137839.html。 


10.5 SaaS 上 典型 平台 


SaaS (Software-as-a-Service) 是 基于 互联 网 提供 软件 服务 的 软件 应 用 模式 ， 是 21 世 纪 软 件 科 技 发 展 的 最 新 趋势 ， 是 云 计 
算 的 重要 类 型 和 高 级 形态 。Saas 已 经 非常 成 熟 ， 可 以 看 作 mashup 的 一 部 分 ， 或 是 Paas 产 品 ， 或 是 基于 Internet 的 服务 的 一 个 
插件 。 它 提供 开 箱 即 用 的 应 用 程序 ， 比 如 企业 资源 管理 或 工厂 工程 管理 。 不 管用 户 身 居 何 处 ， 都 可 以 从 Web 浏 览 器 访问 这 个 应 
用 程序 。 上 典型 的 SaaS 平 台 有 : Salesforce.com、Watson 以 及 SmartDP。 


1.Salesforce.com 


Salesforce 是 成 立 于 1999 年 3 月 的 一 家 客户 关系 管理 (CRM) 软件 服务 供应 商 ， 也 是 全 球 按 需 CRM 解 决 方案 的 领导 者 ， 拥 
有 业界 最 高 的 用 户 成 功率 。 具 体 而 言 ，Salesforce 的 业务 可 以 分 为 以 下 几 类 [1], 


. 销售 : Salesforce.com 的 销售 自动 化 (Sales Force Automation，SFA) 可 以 加 速 并 简化 商机 管理 、 分 析 预 测 、 销 售 流程 管理 、 


渠道 、 销 售 人 员 管 理 、 销 售 团队 管理 等 所 有 销售 阶段 ， 使 销售 人 员 、 经 理 以 及 主管 专注 于 销售 渠道 和 客户 关系 管理 ， 而 非 管 
理 销售 软件 和 IT 基础 结构 。 从 某 种 意义 上 来 说 ，Salesforce 的 SEA 是 一 款 很 好 的 客户 信息 管理 系统 软件 。 


- 服务 支持 : 通过 Salesfotce.com 的 客户 服务 管理 软件 即 服务 解决 方案 来 进行 CRM 呼 叫 中 心 管理 和 帮助 台 管 理 。Salesfotrce 
CRM 客 户 服务 和 支持 通过 Web 以 订阅 方式 交付 ， 无 需 购 买 、 维 护 硬件 或 软件 ， 且 不 存在 漫长 的 部 署 周期 。 而 Desk.com 服 务 台 可 以 
整合 企业 的 服务 数据 ， 分 析 数 据 后 为 客户 服务 工作 提供 参考 意见 。 


市 场 营销 : 将 使 用 电子 邮件 、 移 动 市 场 营销 、 社 交 媒 体 市 场 营销 等 不 同 渠道 和 设备 的 客户 引导 进入 一 对 一 的 营销 流程 ， 并 
基于 网 络 营销 数据 制定 相应 的 方案 策略 。 同 时 提供 客户 数据 平台 ， 使 得 企业 可 以 跟踪 交易 数据 并 及 时 展现 报告 。 


. 社区 : Salesforce 提 供 的 CommunityCloud 社 区 服务 功能 ， 可 以 让 企业 的 客户 、 合 作 伙 伴 及 员工 之 间 实 现 自 由 互动 ， 便 于 调整 


不 同 销售 渠道 的 产品 。 这 一 自助 式 服务 社区 可 以 实现 信息 、 程 序 、 专 家 甚至 潜在 客户 等 资源 的 连通 。 至 于 Chattef 则 主要 实现 企业 





内 不 同 职 位 员工 的 联系 、 合 作 及 文件 、 数 据 等 信息 的 共享 。 


. 平台 及 应 用 : AppCloud 作 为 应 用 程序 一 站 式 服务 台 ， 建 立 在 云 平 台 基 础 上 ， 可 用 于 构建 、 运 行 、 管 理 和 优化 应 用 程序 。 
利用 Force.com 构 建 适 用 于 任何 角色 和 部 门 员工 的 应 用 程序 。 而 AppExchange 相 当 于 一 个 企业 软件 在 线 “ 超 市 ”， 用 户 可 以 自行 购 
买 那些 即 选 即 用 的 功能 模块 ， 然 后 在 其 用 户 名 下 的 Salesforce.com 上 运行 ， 其 中 的 大 部 分 模块 是 由 第 三 方 开发 并 自主 提供 的 。 


2.SmartDP 


为 了 实现 真正 的 数据 驱动 ， 智 能 企业 需要 新 的 平台 来 支撑 。 这 样 的 平台 是 智能 企业 的 核心 ， 是 数据 驱动 的 基础 ， 为 企业 提供 
了 一 个 围绕 数据 的 生态 环境 。 我 们 将 这 样 的 平台 称 为 SmartDP (智能 数据 平台 ) 。 


SmartDP 是 指 基 于 智能 数据 应 用 探索 商业 价值 的 平台 ， 它 需要 具有 数据 管理 、 数 据 工 程 和 数据 科学 的 能 


SmartDP 是 一 套 新 的 数据 解决 方案 ， 帮 助 企 业 构 建 端 到 端的 从 数据 收集 、 整 理 、 分 析 到 | 行动 的 数据 闭环 ， 以 提供 敏捷 的 数 
据 洞 察 和 数据 价值 挖 握 能 力 ， 为 数据 的 场景 化 应 用 提供 灵活 和 可 扩展 的 支持 。 


一 个 完整 的 SmartDP 解 决 方案 往往 包含 以 下 四 个 部 分 : 数据 、 平 台 产 品 、 数 据 应 用 、 咨 询 和 服务 。 这 四 个 部 分 往往 通过 如 
10-2 所 示 的 生态 模式 来 展现 。 


(1) 数据 


数据 需要 流动 、 关 联 和 整合 才能 发 挥 最 大 的 价值 ， 而 数据 交换 和 交易 市 场 则 起 到 这 个 关键 职责 。 它 提供 给 数据 源 供应 方 上 架 
数据 、 介 绍 宣传 、 中 转 传输 的 能 力 ， 提 供给 购买 方 试用 、 查 验 、 规 模 获 取 的 能 力 ， 是 交易 的 撮合 方 也 是 担保 方 。 


数据 市 场 的 关键 ， 绝 非 只 是 简单 的 通路 转发 那么 简单 ， 除 了 必 备 的 计量 计 费 ， 更 关键 的 是 解决 数据 合法 合 规 转换 、 反 欺诈 、 
标准 统一 、 质 量 验证 、 数 据 聚 合 等 问题 。 
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图 10-2 SmartDP 智 能 数据 平台 生态 全 景 


(2) 平台 产品 


SmartDP 平 台 产品 需 要 具备 支撑 数据 管理 、 数 据 工程 和 数据 科学 的 能 力 ， 包 括 既 能 支撑 数据 管理 的 要 求 ， 也 能 完成 数据 的 
收集 、 整 理 、 分 析 和 行动 ， 还 能 支撑 数据 科学 的 算法 和 模型 构建 。 从 生态 的 角度 看 ， 这 个 平台 具备 生产 智能 数据 应 用 的 能 力 ， 也 
通过 数据 加 工 、 制 成 能 力 为 数据 市 场 提供 支撑 。 


(3) 数据 应 用 


数据 应 用 是 基于 数据 管理 、 数 据 科学 和 数据 工程 的 平台 产品 之 上 的 流程 、 逻 辑 和 算法 的 封装 ， 用 于 解决 具体 业务 场景 问题 ， 
实现 商业 价值 。 


数据 应 用 通常 是 由 数据 产品 经 理 推动 实现 的 ， 面 向 业务 用 户 提供 服务 ， 所 以 需要 考虑 业务 用 户 的 体验 ， 包 括 流 程 的 简练 、 可 
视 化 效果 的 直观 清晰 等 。 


在 实践 中 ， 数 据 应 用 可 能 来 自 于 企业 自身 ， 也 可 能 来 自 第 三 方 。 第 三 方 数据 应 用 提供 商 可 能 在 某 些 垂直 领域 具有 经 过 验证 的 
能 力 ， 比 如 金融 风 控 、 客 户 价值 预测 算法 、 情 景 感知 能 力 等 ， 可 以 补 全 企业 在 这 些 领 域 的 经 验 ， 避 免 重 新 发 明 轮 子 。 而 当 市 场 上 
缺乏 能 够 解决 企业 实际 业务 场景 问题 的 第 三 方 数据 应 用 的 时 候 ， 企 业 必 须 通 过 自主 开发 或 者 外 包 的 方式 ， 有 针对 性 地 实现 定制 化 
的 数据 应 用 。 


数据 应 用 之 间 也 能 够 互相 支持 ， 以 实现 数据 和 功能 的 可 重用 性 。 
(4) 咨询 和 服务 
在 SmartDP 的 客户 落地 过 程 中 ， 咨 询 和 服务 对 于 每 个 步骤 都 具有 至 关 重 要 的 作用 。 


一 般 来 说 ，sSmartDP 解 决 方案 会 以 咨询 的 方式 切入 客户 的 业务 、 市 场 等 部 门 ， 从 客户 的 问题 出 发 ， 将 问题 转化 成 可 以 用 数 
据 和 数据 应 用 来 解决 的 问题 ， 最 终 支 撑 客 户 的 某 类 决策 。SmartDP 是 为 客户 提供 决策 信息 支撑 (分 客观 决策 和 主观 决策 ) 以 及 
执行 依据 和 方法 的 ， 所 以 咨询 是 SmartDP 的 首要 内 涵 。 


[1 资料 来 源 : http://business.sohu.com/20160801/n461987070.shtml。 
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11.1 收集 一 切 


如 果 要 在 网 站 上 推出 一 个 新 的 结账 流程 ， 我 们 想 确 切 地 知道 它 的 表现 是 否 违背 设计 思想 ， 需 要 追踪 转换 量 、 账 单 规 模 和 其 他 
内 容 。 但 理解 如 何 使 用 这 些 数据 ， 将 对 我 们 更 有 启发 和 意义 。 例 如 在 一 些 网 站 上 ，“ 添 加 到 购物 车 ”是 一 个 单一 的 点 击 选项 ， 大 
部 分 消费 者 的 习惯 是 添加 一 大 推 的 商品 到 购物 车 中 ， 直 到 结账 时 才 选 中 最 终 要 购买 的 商品 并 点 击 订单 提交 按钮 。 而 在 另 一 些 网 
站 ，“ 添 加 到 购物 车 ”将 关联 很 多 次 点 击 行为 ， 而 从 购物 车 中 移 除 又 相对 烦琐 复杂 ， 因 此 消费 者 基本 上 是 在 确定 购买 意图 后 才 会 
将 商品 添加 到 购物 车 中 。 通 过 上 面 的 例子 会 发 现 ， 监 测 结账 流程 可 以 深入 洞察 这 个 功能 ， 并 提出 添加 、 优 化 功能 ， 以 及 进一步 测 
试 的 方案 思路 。 


在 《Building Data Science Teams》 一 书 中 ， 帕 蒂 尔 (DJ Patil) 做 过 如 下 标注 : 


“将 团队 伪装 成 数据 驱动 型 非常 容易 。 但 如 果 能 够 将 收集 到 的 所 有 数据 加 以 评估 ， 并 思考 这 些 数 据 的 意义 ， 那 么 你 的 团队 将 
领先 于 大 多 数 声称 是 数据 驱动 型 的 团队 。 


收集 和 评估 所 有 能 得 到 的 数据 。 我 们 并 不 知道 需要 哪些 数据 ， 而 通常 只 有 一 次 机 会 去 收集 它们 ， 当 需要 数据 时 ， 它 可 能 已 不 
可 访问 ， 这 时 再 手 胸 顿 足 也 无 济 于 事 。 收 集 越 多 的 数据 ， 将 会 有 越 多 的 机 会 对 使 用 者 的 行为 就 像 上 文中 结账 的 例子 ) 进行 建 模 
和 理解 ， 最 重要 的 是 理解 使 用 环境 一 一 使 用 环境 才 是 真正 的 重点 。 也 就 是 说 ， 更 多 地 理解 使 用 者 的 行为 、 品 味 、 意 图 和 愿望 ， 
便 能 通过 个 性 化 定制 、 推 荐 和 细 粒 化 的 服务 来 提升 用 户 体验 ， 以 便 达 到 “长 尾 ”["]( 即 无 限 小 众 市 场 的 价值 总 和 将 不 逊 于 那些 大 
热门 的 商品 ) 。 


当 开 发 线 上 产品 时 ， 收 集 一 切 是 一 种 缺乏 思考 的 行为 。 如 果 这 是 一 个 可 以 控制 的 数据 源 ， 并 且 点 击 一 个 功能 与 点 击 男 一 功能 
完全 可 以 用 相同 或 相似 的 收集 机 制 ， 那 么 可 以 采用 通用 的 模式 、 数 据 流 和 存储 机 制 。 一 个 强 数 据 驱 动 的 公司 ， 会 将 数据 驱动 更 广 
泛 地 应 用 于 营销 、 销 售 、 消 费 服 务 、 供 应 链 、 人 力 资源 等 各 个 部 门 。 如 果 各 个 部 门 使 用 的 内 部 和 外 部 的 数据 资源 在 数据 格式 、 延 
迟 、 数 据 质 量 、 安 全 性 和 合 规 条 件 等 方面 都 不 相同 ， 那 就 会 令 数 据 团队 焦头烂额 。 所 以 “收集 一 切 ” 听 起 来 很 棒 但 实际 操作 起 来 
却 无 比 头疼 。 


此 外 ， 数 据 也 不 是 免费 的 。 虽 然 数据 越 多 越 好 | 悦 ， 但 它 价值 不 菲 。 构 建 用 来 收集 、 清 理 、 转 化 和 存储 数据 的 流程 是 成 本 。 系 
统 维护 、 数 据 备 份 、 为 提供 宏观 商业 视角 而 做 的 数据 资源 整合 是 成 本 。 提 供 高 效 的 工具 给 分 析 师 ， 充 分 利用 不 同 数据 源 的 数据 也 
是 成 本 。 而 为 了 给 分 析 师 提供 准确 的 数据 ， 以 上 这 一 切 都 是 必需 的 。 


大 数据 的 实践 者 和 供应 商 倾向 于 从 三 个 维度 来 思考 数据 的 收集 和 处 理 : 体 量 、 种 类 和 速度 B。 


体 量 (Volume) : 指 的 是 数据 量 。 数 据 量 直接 关系 到 数据 存储 和 转化 的 费用 。 尽 管 数据 人 存储 的 费用 呈 指 数 下 降 一 一 现在 大 
约 为 0.03 美 元 /GB 而 2000 年 为 10 美 元 /GB， 但 可 利用 的 数据 源 ， 以 及 这 些 数据 源 中 能 够 被 采样 的 数据 量 都 明显 增加 ， 这 些 抵消 了 
存储 费用 的 下 降 。 


种 类 (Variety) : 数据 的 另 一 个 重要 维度 。 一 方面 ， 多 样 的 数据 源 可 以 提供 更 丰富 的 数据 场景 和 更 加 完整 的 视角 。 因 此 引 
入 天 气 信息 、 通 货 膨胀 数据 和 社交 媒体 消息 ， 可 能 会 为 你 的 产品 销售 提供 丰富 意见 。 但 是 ,数据 源 的 种 类 越 多 (一 个 数据 源 是 
CSV 格 式 ， 另 一 个 是 JSON 类 型 格式 ， 每 小 时 的 天 气 信 息 在 这 儿 ， 快 速 的 股票 策略 在 那儿 ) ， 集 成 的 成 本 就 越 高 。 很 难 将 这 些 数 
据 一 次 性 全 部 呈现 。 


速度 (Velocity) : 在 一 个 单位 时 间 里 能 够 处 理 多 少数 据 。 想 象 一 下 ， 在 总 统 大 选 辩论 期 间 ， 要 提取 推 特 数据 来 呈现 民众 倾 


向 。 不 但 需要 处 理 海量 的 信息 ， 还 需要 快速 整合 ， 以 提供 实时 的 民众 反馈 。 大 规模 、 实 时 数据 处 理 复杂 且 开 销 巨大 。 


即使 一 些 收集 大 量 数据 的 公司 ， 如 Facebook、 谷 歌 ， 美 国 国家 安全 局 ， 也 不 能 一 夜 之 间 搞 定 一 切 。 建 立 数据 源 和 连接 数据 
源 ， 需 要 耗费 大 量 时 间 。 这 需要 一 个 合理 的 、 周 全 的 数据 采集 和 供应 策略 。 此 外 ， 大 多 数组 织 中 的 数据 团队 都 是 资源 有 限 的 ， 他 
们 不 能 一 次 性 做 所 有 的 事情 ， 所 以 必须 仔细 考虑 应 该 优先 处 理 哪些 数据 源 。 现 实情 况 是 ， 在 收集 数据 时 ， 数 据 的 产生 是 连续 而 缓 
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11.1 收集 一 切 


如 果 要 在 网 站 上 推出 一 个 新 的 结账 流程 ， 我 们 想 确 切 地 知道 它 的 表现 是 否 违背 设计 思想 ， 需 要 追踪 转换 量 、 账 单 规 模 和 其 他 
内 容 。 但 理解 如 何 使 用 这 些 数 据 ， 将 对 我 们 更 有 启发 和 意义 。 例 如 在 一 些 网 站 上 ，“ 添 加 到 购物 车 ”是 一 个 单一 的 点 击 选项 ， 大 
部 分 消费 者 的 习惯 是 添加 一 大 堆 的 商品 到 购物 车 中 ， 直 到 结账 时 才 选 中 最 终 要 购买 的 商品 并 点 击 订单 提交 按钮 。 而 在 另 一 些 网 
站 ，“ 添 加 到 购物 车 ”将 关联 很 多 次 点 击 行为 ， 而 从 购物 车 中 移 除 又 相对 烦琐 复杂 ， 因 此 消费 者 基本 上 是 在 确定 购买 意图 后 才 会 
将 商品 添加 到 购物 车 中 。 通 过 上 面 的 例子 会 发 现 ， 监 测 结账 流程 可 以 深入 洞察 这 个 功能 ， 并 提出 添加 、 优 化 功能 ， 以 及 进一步 测 
试 的 方案 思路 。 


在 《Building Data Science Teams》 一 书 中 ， 帕 蒂 尔 (DJ Patil) 做 过 如 下 标注 : 


“将 团队 伪装 成 数据 驱动 型 非常 容易 。 但 如 果 能 够 将 收集 到 的 所 有 数据 加 以 评估 ， 并 思考 这 些 数 据 的 意义 ， 那 么 你 的 团队 将 
领先 于 大 多 数 声 称 是 数据 驱动 型 的 团队 。 


收集 和 评估 所 有 能 得 到 的 数据 。 我 们 并 不 知道 需要 哪些 数据 ， 而 通常 只 有 一 次 机 会 去 收集 它们 ， 当 需要 数据 时 ， 它 可 能 已 不 
可 访问 ， 这 时 再 手 胸 顿 足 也 无 济 于 事 。 收 集 越 多 的 数据 ， 将 会 有 越 多 的 机 会 对 使 用 者 的 行为 〈 就 像 上 文中 结账 的 例子 ) 进行 建 模 
和 理解 ， 最 重要 的 是 理解 使 用 环境 一 一 使 用 环境 才 是 真正 的 重点 。 也 就 是 说 ， 更 多 地 理解 使 用 者 的 行为 、 品 味 、 意 图 和 愿望 ， 
便 能 通过 个 性 化 定制 、 推 荐 和 细 粒 化 的 服务 来 提升 用 户 体验 ， 以 便 达 到 “长 尾 ”["]( 即 无 限 小 众 市 场 的 价值 总 和 将 不 逊 于 那些 大 
热门 的 商品 ) 。 


当 开 发 线 上 产品 时 ， 收 集 一 切 是 一 种 缺乏 思考 的 行为 。 如 果 这 是 一 个 可 以 控制 的 数据 源 ， 并 且 点 击 一 个 功能 与 点 击 男 一 功能 
完全 可 以 用 相同 或 相似 的 收集 机 制 ， 那 么 可 以 采用 通用 的 模式 、 数 据 流 和 存储 机 制 。 一 个 强 数 据 驱 动 的 公司 ， 会 将 数据 驱动 更 广 
泛 地 应 用 于 营销 、 销 售 、 消 费 服 务 、 供 应 链 、 人 力 资源 等 各 个 部 门 。 如 果 各 个 部 门 使 用 的 内 部 和 外 部 的 数据 资源 在 数据 格式 、 延 
迟 、 数 据 质 量 、 安 全 性 和 合 规 条 件 等 方面 都 不 相同 ， 那 就 会 令 数 据 团队 焦头烂额 。 所 以 “收集 一 切 ” 听 起 来 很 棒 但 实际 操作 起 来 
却 无 比 头疼 。 


此 外 ,数据 也 不 是 免费 的 。 虽 然 数 据 越 多 越 好 站， 但 它 价值 不 菲 。 构 建 用 来 收集 、 清 理 、 转 化 和 存储 数据 的 流程 是 成 本 。 系 


统 维护 、 数 据 备 份 、 为 提供 宏观 商业 视角 而 做 的 数据 资源 整合 是 成 本 。 提 供 高 效 的 工具 给 分 析 师 ， 充 分 利用 不 同 数据 源 的 数据 也 
是 成 本 。 而 为 了 给 分 析 师 提供 准确 的 数据 ， 以 上 这 一 切 都 是 必需 的 。 


大 数据 的 实践 者 和 供应 商 倾向 于 从 三 个 维度 来 思考 数据 的 收集 和 处 理 : 体 量 、 种 类 和 速度 B]。 


体 量 (Volume) : 指 的 是 数据 量 。 数 据 量 直接 关系 到 数据 存储 和 转化 的 费用 。 尽 管 数据 人 存储 的 费用 呈 指 数 下降 一 一 现在 大 
约 为 0.03 美 元 /GB 而 2000 年 为 10 美 元 /GB， 但 可 利用 的 数据 源 ， 以 及 这 些 数据 源 中 能 够 被 采样 的 数据 量 都 明显 增加 ， 这 些 抵消 了 
存储 费用 的 下 降 。 


种 类 (Variety) : 数据 的 另 一 个 重要 维度 。 一 方面 ， 多 样 的 数据 源 可 以 提供 更 丰富 的 数据 场景 和 更 加 完整 的 视角 。 因 此 引 
入 天 气 信息 、 通 货 膨 胀 数据 和 社区 媒体 消息 ， 可 能 会 为 你 的 产品 销售 提供 丰富 意见 。 但 是 ， 数 据 源 的 种 类 越 多 (一 个 数据 源 是 
CSV 格 式 ， 另 一 个 是 JSON 类 型 格式 ， 每 小 时 的 天 气 信息 在 这 儿 ， 快 速 的 股票 策略 在 那儿 ) ， 集 成 的 成 本 就 越 高 。 很 难 将 这 些 数 
据 一 次 性 全 部 呈现 。 


速度 (Velocity) : 在 一 个 单位 时 间 里 能 够 处 理 多 少数 据 。 想 象 一 下 ， 在 总 统 大 选 辩论 期 间 ， 要 提取 推 特 数据 来 呈现 民众 倾 
向 。 不 但 需要 处 理 海量 的 信息 ， 还 需要 快速 整合 ， 以 提供 实时 的 民众 反馈 。 大 规模 、 实 时 数据 处 理 复杂 且 开 销 巨大 。 


即使 一 些 收集 大 量 数据 的 公司 ， 如 Facebook、 谷 歌 ， 美 国 国家 安全 局 ， 也 不 能 一 夜 之 间 搞 定 一 切 。 建 立 数据 源 和 连接 数据 
源 ， 需 要 耗费 大 量 时 间 。 这 需要 一 个 合理 的 、 周 全 的 数据 采集 和 供应 策略 。 此 外 ， 大 多 数组 织 中 的 数据 团队 都 是 资源 有 限 的 ， 他 
们 不 能 一 次 性 做 所 有 的 事情 ， 所 以 必须 仔细 考虑 应 该 优先 处 理 哪些 数据 源 。 现 实情 况 是 ， 在 收集 数据 时 ， 数 据 的 产生 是 连续 而 缓 
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11.2 为 数据 源 设置 优先 级 


在 一 个 典型 的 比较 小 而 且 资源 有 限 的 公司 里 ， 数 据 工 程 师 忙于 应 付 各 种 需求 ， 这 样 的 团队 怎样 选择 下 一 步 应 该 消费 的 数据 源 
呢 ” 答案 是 为 这 些 数据 源 的 消费 和 配置 设置 优先 级 。 一 个 数据 驱动 的 公司 ， 应 该 聚焦 在 第 五 个 也 是 更 重要 的 V (Value) 上 面 : 
也 就 是 商业 价值 。 


数据 团队 的 主要 任务 应 该 是 满足 商业 部 门 以 及 这 些 部 门 分 析 师 的 需求 ， 并 帮助 他 们 提升 在 公司 的 影响 力 。 每 个 团队 和 部 门 一 
般 都 有 自己 的 “核心 ”数据 ， 对 于 客户 服务 团队 来 说 ， 就 是 各 种 格式 的 交互 数据 ， 比 如 电子 邮件 、 通 话 记录 、 社 交 媒 体 数据 、 即 
时 通信 数据 、 案 例 数据 以 及 销售 订单 数据 等 。 基 于 这 些 数 据 ， 客 服 履行 的 主要 职责 是 : 客户 第 一 。 除 此 之 外 ， 可 以 通过 组 合 这 些 
数据 源 ， 利 用 服务 的 交互 数据 生成 每 次 服务 的 整体 概况 ; 也 可 以 查看 团队 表现 的 指标 ， 如 解决 一 次 客户 问题 的 平均 时 间 ; 还 可 以 
根据 不 同 数据 源 分 析 每 个 客户 问题 的 类 型 。 每 个 部 门 还 可 以 通过 其 他 数据 源 增 强 自己 的 核心 数据 ， 比 如 ， 用 户 对 新 功能 产生 困惑 
的 数据 ， 这 种 数据 可 能 是 开发 的 缺陷 或 者 是 A/B 测 试 的 结果 。 这 些 可 能 有 助 于 预测 问题 的 发 生 率 和 预期 事件 。 那 些 其 他 数据 源 一 
般 来 说 是 有 价值 和 有 影响 力 的， 但 不 是 至 关 重 要 的 。 


问题 在 于 ， 在 一 个 资源 有 限 的 公司 里 ， 客 户 服务 只 是 大 量 团队 中 的 一 部 分 ， 其 他 团队 也 有 自己 的 核心 数据 以 及 数据 需求 。 试 
想 一 个 数据 工程 师 或 数据 项 目 经 理 尝 试 平衡 来 自 所 有 团队 需求 的 情景 ， 表 11-1 提 供 多 个 维度 帮助 数据 团队 设置 优先 级 来 解决 这 


个 问题 。 虽 然 关键 点 是 投资 回报 率 (ROI) ， 但 是 简易 性 、 复 杂 度 、 数 据 质量 以 及 其 他 项 也 都 需要 考虑 。 


表 11-1 在 一 个 资源 有 限 的 公司 里 ， 设 置 引 入 数据 源 的 优先 级 需要 考虑 的 因素 


优先 级 解释 
| 如 果 业 务 部 门 有 真正 的 需求 ， 并 且 有 严格 的 最 后 期 限 ， 需 要 尽 
高 | 数据 被 迫切 需要 | 快 为 这 些 内 部 客户 提供 服务 
数据 交付 后 可 带 来 高 | 高 投资 回报 率 ， 比 如 ， 可 以 帮助 他 们 显著 提高 收入 或 降低 成 术 
价值 时 ， 应 该 以 高 优先 级 对 竺 
高 | 数据 被 多 不 团队 需要 | ， 较 高 的 投资 回报 率 ， 能 同时 解决 多 不 团队 的 数据 需求 
一 此 数据 来 自流 式 社交 媒体 接口 或 者 硬件 ， 只 允许 在 很 全 的 时 














a 

高 Rag a 间 窗 口内 访问 ， 错 过 就 不 再 存在 。 这 种 情况 只 能 选择 现在 处 理 或 者 
| 放弃 

以 价值 驱动 的 方式 改 | ”新 数据 将 改善 现 有 数据 ， 而 且 提供 更 丰富 的 背景 信息 (下 一 节 将 


善 现 有 数据 详细 讨论 这 个 情况 ) 


数据 团队 对 一 些 数据 源 或 者 它们 的 API 接口 很 熟悉 ， 而 且 可 以 
已 有 的 数据 处 理 代码 ”| 利用 已 有 的 代码 来 处 理 ， 那 么 可 预期 的 风险 就 比较 小 

有 时 候 一 些 需求 会 插队 ， 是 因为 它们 已 经 存在 一 个 很 好 用 的 
Python 客户 端 或 者 API， 使 得 数据 工程 师 可 以 很 容易 地 将 这 些 数据 
中 数据 很 容易 获取 | 拉 取 下 来 。 或 者 这 些 数据 具有 清晰 简单 的 模式 ， 处 理 它们 可 能 只 需 
要 一 个 下 午 或 者 一 两 天 时 间 ， 并 且 能 提供 这 些 数据 价值 的 证 明 ， 那 
就 值得 很 快 处 理 

一 个 数据 需求 不 是 很 急迫 ， 而 且 我 们 知道 总 是 可 以 很 方便 地 获 
存在 允许 获取 历史 数 | 取 历 史 数 据 ， 那 么 可 能 应 该 先 处 理 优先 级 更 高 的 数据 需求 。 比 如 ， 








据 的 接口 如 果 希 望 备份 存档 Google Analytics 的 数据 ， 可 以 选择 任何 空闲 的 
时 间 

分 析 师 对 数据 源 具 有 部 分 访问 能 力 ， 即 使 不 是 很 理想 ， 比 如 通 

低 分 析 师 有 部 分 数据 访 | 过 第 三 方 的 控制 台 ， 导 出 数据 到 CSV 文件 等 ， 可 以 满足 他 们 的 需 


问 能 力 和 其 他 途径 时 | 求 时 ， 那 这 个 数据 需求 的 优先 级 就 比较 低 。 对 于 一 个 公司 来 说 ， 当 
前 不 具有 访问 权限 的 数据 源 ， 可 能 提供 更 直接 的 价值 


及 对 类 量 几 平 > 兰 人 小 屠 途 状 -人 7 芭 
低 低 质 量 数据 如 果 对 数据 质量 几 子 没有 信 心 ， 那 么 数据 的 价值 可 能 很 低 ， 或 
者 适得其反 


屏幕 抓 取 的 数据 来 自 于 网 页 ， 但 是 网 站 拥有 者 会 频繁 改变 页 面 
的 HTML 和 CSS 结构 ， 一 般 情况 下 这 种 数据 格式 化 也 不 好 ， 处 理 
起 来 很 复杂 ， 需 要 经 常 维护 

低 低 投资 回报 率 ， 可 有 可 无 的 没有 明确 使 用 场景 的 数据 





低 





正如 我 们 所 看 到 的 ， 确 定 下 一 步 应 该 引入 哪个 数据 源 时 ， 有 很 多 相互 制约 的 因素 。 对 分 析 师 和 公司 来 说 ， 细 致 地 平衡 获取 数 
据 成 本 与 实现 复杂 度 以 及 数据 的 价值 应 该 作为 一 个 整体 来 考虑 。 


11.3 ”关联 单独 的 数据 


毋庸 置疑 ， 整 个 公司 的 消费 数据 具有 明确 的 价值 
数据 ， 将 相关 数据 项 联结 ， 会 产生 更 大 的 价值 。 





些 来 自 数字 营销 ， 一 些 来 自 销售 ,一 些 来 自 供应 链 。 深 入 分 析 这 些 





想象 一 下 ， 给 你 一 个 拼图 ， 有 一 干 个 碎片 ， 但 盒子 上 没有 图 片 。 当 整理 这 些 碎片 时 ， 你 会 将 一 组 蓝 色 的 碎片 归 为 一 组 ， 这 些 
可 能 是 天 空 。 绿 色 的 一 组 碎片 可 能 是 草地 。 这 有 一 个 眼睛 。 那 是 人 还 是 动物 ”你 会 对 整个 画面 有 一 个 模糊 的 印象 ， 但 它 没 有 任何 
细节 。 当 你 开始 拼接 相 邻 的 部 分 ， 细 节 就 来 了 。 你 可 以 把 代表 眼睛 的 碎片 与 代表 耳 打 的 碎片 拼接 在 一 起 。 这 样 画面 开始 逐渐 清 
晰 。 让 我 们 从 分 析 学 的 角度 进行 更 清晰 的 阐述 。 


假设 我 们 使 用 Google Analytics 分 析 用 户 如 何 访问 网 站 。 它 会 提供 一 组 细 分 信息 ， 比 如 引用 页 面 、 搜 索 项 以 及 用 户 所 在 位 置 
等 ， 会 让 我 们 在 样本 或 整体 层面 上 (这 些 就 像 天 空 的 碎片 ) 有 一 个 认 知 。 如 果 分 析 过 去 三 个 月 的 客户 调查 回复 信件 : 75% 的 客户 
对 价格 满意 ，20% 的 客户 对 客户 服务 满意 等 (这些 就 像 草 地 的 碎片 ) ， 我 们 就 可 以 了 解 到 业务 状态 ， 但 看 待业 务 的 视角 就 像 站 在 


比较 来 看 ， 我 们 假设 有 一 个 销售 订单 〈 见 图 11-1) 。 贝 琳 达 史密斯 想 要 订购 一 组 露台 家 具 。 如 果 我 们 关联 她 这 单 交易 的 点 
击 流 信息 ， 就 可 以 了 解 到 更 多 : 她 人 花 了 30 分 钟点 击 15 个 不 同 的 露台 家 具 组 ， 然 后 确定 了 最 终 的 一 组 。 显 然 ， 她 脑袋 里 原本 是 没 
有 一 个 明确 的 购买 目标 的 。 那 她 垮 么 找到 这 个 订购 网 页 的 ”如 果 关 联 到 引用 数据 ， 那 么 会 发 现 她 在 Google 输 入 了 “露台 
子 ”， 然 后 找到 了 我 们 的 网 站 ， 这 确认 了 我 们 对 她 的 浏览 行为 的 判断 。 现 在 ， 如 果 分 析 她 的 完整 的 订单 历史 ， 会 发 现 贝 琳 达 是 一 
个 频繁 的 购物 者 ， 通 常 购买 的 是 家 庭 用 品 ， 并 且 有 趣 的 是 她 的 购物 量 在 上 个 月 有 一 个 郝 升 。 总 之 ， 她 使 用 Google 搜 索 并 且 经 常 
购物 的 信息 意味 着 她 可 能 并 不 是 品牌 忠实 者 ， 我 们 需要 非常 努力 才能 获得 她 的 青睐 。 每 次 在 个 人 层面 添加 另 一 个 数据 集 ， 就 会 得 
到 一 个 更 深入 、 更 丰富 的 了 解 。 让 我 们 引入 美国 人 口 普查 数据 ， 其 中 列 出 了 名 字 的 性 别 概率 : 贝 琳 达 当然 是 女性 。 好 ， 当 她 付款 
时 ， 她 添加 了 一 个 送 货 地 址 。 让 我 们 从 该 邮政 编码 中 提取 受众 特征 数据 。 这 是 一 个 城 外 的 富 人 区 。 我 们 还 能 用 那个 地 址 做 什么 ? 
让 我 们 在 多 重 列表 服务 (MLS) 上 查找 该 地 址 ， 它 是 房屋 销售 的 中 央 人 存储 库 。 有 趣 的 是 ， 列 表 上 显示 房子 有 一 个 游泳 池 。 这 对 
于 商品 推荐 很 有 用 。 还 有 什么 ”这 房子 是 在 六 个 星期 前 出 售 的 。 哦 ， 她 可 能 刚 搬 到 那个 地 址 不 久 。 从 我 们 做 过 的 其 他 分 析 上 看 ， 
新 的 房 主 往往 会 买 地 毯 、 床 和 灯 (是 的 ， 这 是 真 的 ， 我 们 做 过 这 个 分 析 ) 。 最 后 ， 她 在 结账 时 点 击 “ 推 荐 给 朋友 ”的 组 件 来 获得 
优惠 券 ， 因 为 她 在 购物 过 程 中 接受 了 Facebook 的 服务 条 款 ， 这 让 网 站 可 以 关联 她 的 社交 网 络 。 (我 们 将 在 第 13 章 详细 介绍 隐私 
和 伦理 道德 。) 
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图 11-1 


使 用 一 组 数据 源 向 贝 琳 达 的 订单 添加 丰富 的 背景 信息 帆 


这 些 深度 画像 和 背景 信息 ， 为 数据 分 析 师 或 数据 科学 家 的 工作 提供 了 大 量 的 原始 数据 。 我 们 可 以 清楚 地 了 解 她 的 过 往 信息 、 
统计 特征 ， 以 及 在 这 种 情况 下 的 购物 动机 。 对 一 些 其 他 客户 进行 这 样 的 分 析 ， 或 者 自动 执行 某 些 相似 分 析 ， 我 们 就 拥有 了 强大 的 
战略 优势 。 


将 单独 的 数据 关联 在 一 起 ， 这 样 的 数据 相 比 于 片段 数据 具有 更 大 的 价值 ， 这 些 将 作为 公司 接 下 来 引入 哪些 数据 的 决策 依据 
(在 不 违反 伦理 道德 和 个 人 隐私 的 前 提 下 ) 。 


[1] 资料 来 源 : http://bit.ly/anderson-ddo-seao 


11.4 如 何 收集 数据 


现在 已 经 知道 了 该 收集 什么 数据 ， 让 我 们 再 简要 地 思考 一 下 该 如 何 收集 这 些 数 据 。 


对 于 许多 数据 源 ， 只 需要 采取 系统 的 方法 抽取 这 些 数 据 源 (或 字段 的 子 集 ) 的 所 有 可 用 数据 。 有 很 多 方法 来 获取 数据 ， 可 以 
通过 应 用 接口 调用 的 方式 ， 或 者 从 FTP 站 点 收集 文件 ， 或 者 抓 取 屏 幕 数据 ， 可 以 是 任何 我 们 能 够 获取 的 方式 。 如 果 是 一 次 性 转 
存 ， 工 作 就 完成 了 。 如 果 数 据 被 频繁 地 更 新 或 添加 ， 并 且 是 实时 的 数据 流 ， 我 们 就 必须 决定 如 何 消费 这 些 数据 。 对 于 一 些小 文件 
或 表 ， 使 用 当前 更 大 的 数据 集 去 替换 它们 是 很 容易 的 ， 我 们 通常 认为 小 于 10 万 行 的 表 就 是 “小 ” 表 。 对 于 大 型 数据 源 ， 必 须 设 
置 一 些 更 复杂 的 增 量 过 程 ， 最 简单 的 办 法 通常 是 将 新 数据 完整 地 作为 一 条 新 纪录 保存 ， 例 如 ， 不 应 该 对 事务 日 志 进 行 “ 更 
新 ”或 “删除 ”操作 。 在 这 种 情况 下 ， 你 可 以 只 是 “插入 ”新 数据 到 现 有 数据 表 中 ， 在 复杂 的 情况 下 ， 必 须 考虑 一 个 新 的 数据 行 
是 应 该 执行 插入 、 删 除 ， 还 是 更 新 。 


对 于 其 他 的 数据 源 ， 可 能 需要 抽样 数据 ， 但 是 对 于 发 送 和 处 理 调 查 问卷 、 运 行 临床 测试 ， 使 用 Twitter Firehose 可 能 是 非常 
昂贵 的 ， 抽 样 对 数据 质量 有 非常 重要 的 影响 。 一 个 糟糕 的 设计 可 能 会 引入 严重 的 偏差 ， 并 且 会 明显 地 降低 数据 质量 和 效用 。 最 简 
单 的 方法 就 是 简单 随机 抽样 ， 就 像 拖 硬币 一 样 ， 随 机 选择 哪些 数据 作为 样本 ， 样 本 的 目标 是 要 来 自 较 大 的 整体 (样本 空间 ) ， 并 
具有 真实 代表 性 。 


现在 考虑 一 下 对 列 式 数据 集 进行 抽样 ， 假 设 希 望 对 网 站 每 天 的 “会 话 ” 进 行 抽样 ， 为 了 以 后 分 析 ， 把 10% 的 “会 话 ” 人 存 到 数 
据 库 中 。 如 果 每 天 都 做 这 件 事 ， 我 们 将 会 拥有 一 组 独立 的 、 随 机 的 “会 话 ”数据 集 ， 但 是 这 样 会 丢失 连续 访问 该 网 站 的 访问 者 的 
数据 ， 也 就 是 说 ， 数 据 集 可 能 不 包含 任何 具有 多 “会话 ” 数 据 的 个 人 一 他 们 可 能 在 星期 一 被 抽样 ， 但 在 星期 三 返回 时 没有 被 
抽样 。 所 以 ， 如 果 我 们 对 跟踪 个 人 的 多 个 相关 “会 话 ”更 感 兴趣 ， 同 时 我 们 的 网 站 会 有 访问 者 经 常 回访 ， 那 么 随机 抽样 个 体 并 持 
续 跟 踪 他 们 的 “会 话 ” 比 单独 抽样 ， 将 得 到 更 高 质量 的 数据 ， 也 会 让 我 们 做 出 更 好 的 分 析 (当然 ， 我 们 也 会 失去 那些 离开 又 无 法 
召回 的 用 户 ) ， 所 以 如 何 抽样 是 由 业务 驱动 的 。 


最 后 一 点 : 应 该 使 用 原始 数据 还 是 汇总 数据 ? 有 些 供应 商 提供 了 仪表 板 ， 其 中 数据 已 经 聚合 成 分 析 师 需要 的 关键 指标 ,这些 
对 分 析 人 员 有 重要 的 价值 。 如 果 数 据 是 有 价值 的 ， 我 们 更 倾向 于 看 到 ， 分 析 师 想 要 更 多 了 解数 据 ， 他 们 会 进一步 挖掘 数据 ， 并 以 
供应 商 的 仪表 板 不 支持 的 方式 切 分 数据 。 昌 然 可 以 直接 使 用 这 些 报告 和 仪表 板 的 数据 ， 但 我 们 建议 尽 可 能 抽取 原始 数据 ， 因 为 使 
用 原始 数据 也 可 以 汇总 到 这 些 指标 ， 反 之 亦 然 。 在 原则 上 ， 使 用 原始 数据 切 分 ， 可 以 支持 分 析 人 员 能 想象 的 所 有 方式 。 在 有 些 情 
况 下 ， 使 用 原始 数据 也 是 不 可 行 的 ， 比 如 原始 数据 庞大 并 且 存 储 成 本 很 高 ， 或 者 供应 商 为 计算 这 些 指标 已 经 提供 了 有 价值 的 服务 
(自己 无 法 完成 的 处 理 过 程 ) ， 但 是 原始 数据 通常 还 是 更 好 的 选择 。 


11.5 ”数据 采购 


虽然 来 自 组 织 内 部 独立 的 数据 系统 具有 丰富 的 信息 ， 并 且 还 可 以 使 用 公开 的 可 用 数据 进行 补充 ， 但 有 时 还 需要 从 第 三 方 获取 
额外 的 数据 。 


购买 外 部 数据 集 的 原因 有 很 多 。 之 前 ， 我 们 也 通过 贝 琳 达 购 买 露台 家 具 的 例子 说 明了 环境 信息 的 价值 。 首 先 ， 我 们 的 合作 伙 
伴 、 供 应 商 甚至 政府 机 构 提供 的 背景 数据 ， 对 他 们 来 说 这 些 简 单 的 数据 ， 可 能 就 可 以 解决 我 们 困惑 的 部 分 。 其 次 ， 昌 然 有 内 部 数 
据 ， 但 是 第 三 方 可 以 提供 规模 更 大 或 质量 更 高 的 数据 。 


有 了 时， 我们 可 能 没有 机 会 选择 在 哪 购 买 数据 。 例 如 ，MLS 实 际 上 垄断 了 对 房屋 的 销售 数据 。 然 而 在 非 垄 断 情况 下 ， 数 据 采 
购 会 存在 直接 竞争 。 假 设 我 们 想 基于 信用 卡 的 消费 信息 来 购买 这 个 用 户 的 资料 ， 这 些 数据 可 以 来 自 不 同 的 供应 商 ， 如 


Datalogix、Axciom、Epsilon 或 Experian。 这 就 形成 了 一 个 数据 市 场 。 
当 有 一 个 可 选 的 来 源 时 ， 我 们 需要 多 角度 地 衡量 这 个 数据 集 ， 比 如 一 个 城市 区 域 邮政 编码 的 数据 集 ， 它 的 衡量 内 容 包括 : 
-价格 


分 析 师 和 他 们 的 老板 都 喜欢 免费 的 ， 但 是 有 时 候 最 好 是 为 了 更 高 质量 的 数据 付费 。 我 们 需要 考虑 价格 是 否 公平 ， 是 否 对 公 避 
有 价值 。 这 些 将 在 下 一 小 节 中 详细 介绍 。 


el 


` 质量 


数据 该 如 何 清洗 ， 如 何 保证 可 靠 性 ? 


“ 排他 性 


如 果 用 好 了 ， 这 是 否 是 一 个 专 有 的 、 独 家 的 数据 集 ， 并 且 借 此 可 以 领先 于 竞争 对 手 ? 


. 样本 


没有 充分 的 承诺 时 ， 我 们 是 否 可 以 拥有 一 个 样本 来 判断 内 容 / 质 量 和 审查 数据 格式 ? 


更 新 


数据 发 生变 化 ， 变 得 过 时 或 不 相关 的 频率 是 怎样 的 ”数据 更 新 的 频率 如 何 ? 


如 果 数 据 是 敏感 的 ， 它 是 加 密 的 和 安全 传输 的 吗 ? 

` 使 用 条 款 

是 否 有 许可 条 款 来 限制 我 们 可 以 从 数据 中 获取 的 价值 ? 
` 格式 


我 们 都 有 自己 喜欢 的 格式 ， 但 一 般 情 况 下 ， 我 们 首选 可 读 的 格式 ， 如 CSV、JSON 或 XML， 因 为 它们 更 容易 解析 ， 这 样 做 能 
够 提供 更 多 的 选择 。 整 体 考虑 这 是 一 种 我 们 可 以 轻松 支持 的 格式 ， 还 是 需要 花费 额外 的 开发 成 本 和 时 间 来 处 理 和 支持 它 ? 


:文档 


良好 的 文档 保管 是 非常 重要 的 。 通 常 ， 我 们 希望 知道 数据 是 怎样 收集 的 (了解 它 是 否 可 以 信任 ， 是 否 可 以 提供 价值 ) ， 并 有 
一 个 数据 字典 ( 列 出 字段 、 数 据 类 型 、 示 例 值 ， 以 及 任何 重要 的 业务 逻辑 字段 值 ; 请 参见 表 11-2) 。Fulton Financial 的 首席 数 
据 官 Randall Grossman 说 ，“CDO 为 业务 用 户 提供 可 信 的 数据 字典 是 最 重要 的 事情 ” 。 


从 良好 的 数据 字典 中 可 以 清楚 地 看 出 数据 是 如 何 定义 的 ， 它 的 格式 和 允许 的 值 ， 以 及 数据 是 如 何 被 程序 使 用 的 。 


表 11-2 数据 字典 样 例 〈 数 据 来 自 加 利 福 尼 亚 的 公开 健康 工程 ) 





SAS 变量 名 HARS 
(eHARS) 变量 
计算 艾滋 病 (HIV， 
aids_ age mos | 7 第 3 阶段 ) 诊断 的 年 龄 ， age_mos 
断 年 龄 (月 ) 以 月 为 单位 
yessA| 计算 艾滋 病 (HIV， 
aids age yrs 人 第 3 阶段 ) 诊断 的 年 龄 ， age_yIS 
5 以 年 为 单位 
疾病 预防 控制 中 心 的 | 7 一 一 艾滋 病 (HIV， 第 
芯 滋 病 病例 定义 (HIV, |3 阶段 ) 由 免疫 学 (CD4 
第 3 阶段 ) 基于 为 一 个 | 计数 和 百分比 ) 标准 定义 
本 艾滋 病 病 | 人 输入 的 实验 室 信 息 和 | 的 病例 ; 
一 “8 | 例 定 义 类 别 | 机 会 性 疾病 计算 。 有 关 | ”A 一 一 由 临床 疾病 (OD) 8 
辅助 计算 算法 工具 的 描 | 标准 定义 的 艾滋 病 ; 
述 ， 请 参阅 eHARS 技 | 9 不 是 艾滋 病 ( 艾 
术 参 考 指南 的 第 8 节 | 滋 病 毒 ,第 3 阶段 ) 病例 
这 个 人 是 否 符合 CDC 
cpc ( 实 | 区 党 病 (HIV， 第 3 
病 预 防 控制 段 ) 病例 定义 ? 为 了 满 
中 心 ) 人 滋 | 足 CDCAIDS(HIV,3 期 ) 本 
- 病情 况 下 定 | 病例 定义 ， 该 病例 必须 
(a 由 免疫 学 标准 或 临床 疾 
病 标准 定义 (aids_categ 
=A 或 者 7) 
. 体 量 
我 们 能 支持 容量 和 存储 需求 吗 ? 然而 ， 有 价值 的 数据 集 并 不 需要 很 大 。 例 如 ，DMA (指定 的 市 场 区 域 ， 即 由 Nielsen 公 司 定 


义 的 电视 观看 区 域 ) 的 压缩 码 仪 有 41000 行 ， 但 是 对 于 评估 电视 广告 花费 的 营销 团队 是 非常 有 价值 的 。 
- 粒度 
它 降 到 你 需要 的 解析 级 别 了 吗 ? 

数据 集 到 底 值 多 少 钱 


数据 的 花费 比较 容易 计算 。 我 们 可 以 检查 直接 存储 成 本 账单 (例如 来 自 Amazon Web Services) 、 备 份 服务 的 成 本 、 管 理 
和 维护 数据 的 数据 团队 工作 人 员 的 薪水 和 开销 ， 以 及 数据 的 购买 价格 (如 果 有 ) 等 。 然 而 ,数据 驱动 公司 需要 确定 数据 的 商业 价 
值 ， 那 么 计算 投资 回报 率 将 更 复杂 。 


d”Alessandro 等 人 提供 了 一 个 原则 性 的 框架 ， 至 少 在 某 些 情况 下 ， 以 美元 估计 直接 投资 回报 率 的 价值 。 他 们 在 广告 领域 ， 
用 开发 预测 模型 来 计算 向 每 个 用 户 展示 的 最 佳 广告 。 如 果 用 户 点 击 广告 ， 他 们 会 收 到 付款 。 在 这 种 情况 下 ， 结 果 和 回报 是 明确 
的 : 即 如 果 用 户 点 击 了 广告 ， 就 会 收益 1 美元 ， 如 果 用 户 没有 点 击 ， 收 益 记 为 0 美元 。 他 们 也 有 自己 训练 模型 的 数据 ， 有 些 来 源 
于 历史 投标 活动 ， 有 些 是 过 去 购买 的 (认为 是 沉没 成 本 ) 。 他 们 的 问题 是 ，“ 基 于 我 们 自己 的 数据 构建 的 模型 的 投资 回报 率 与 使 
用 第 三 方 数 据 构 建 的 模型 的 投资 回报 率 是 多 少 ? ”这 需要 确定 三 个 组 件 : 


1) 什么 是 有 价值 的 行为 ”在 此 示例 中 ， 一 次 点 击 价值 1 美元 。 


2) 使 用 我 们 自己 数据 的 模型 预期 值 是 多 少 ? 

3) 使 用 我 们 自己 数据 加 上 第 三 方 数据 的 模型 预期 值 是 多 少 ? 

由 此 可 知 ， 

数据 价值 = 预期 值 ( 使 用 第 三 方 数据 的 模型 ) -预期 值 (没有 第 三 方 数据 的 模型 ) 
以 及 

额外 回报 = 值 ( 点 击 ) X 数据 价格 


因此 ， 假 设 自己 数据 的 模型 仅 具 有 19% 的 被 点 击 的 几率 ， 但 是 第 三 方 数据 的 模型 具有 5% 的 被 点 击 几率 。 那 么 数据 价值 提升 
49%， 该 数据 的 附加 值 为 1x (5%-1%) =0.04 美 元 。 


利用 这 样 的 具体 值 ， 我 们 可 以 客观 地 确定 购买 该 数据 的 价值 。 如 果 购 买 这 些 增 量 数据 点 的 成 本 为 0.04 美 元 ， 那 么 是 不 值得 
的 ， 如 果 成 本 只 有 0.01 美 元 ， 那 么 显而易见 是 值得 的 。 


除了 自己 的 数据 ， 我 们 还 应 该 评 佑 第 三 方 数据 的 附加 值 ， 这 是 因为 背景 数据 通常 可 以 让 我 们 了 解 更 多 想 知道 的 内 容 。 有 趣 的 
是 ,，d”Alessandro 等 人 的 一 项 实验 结果 表明 ， 增 加 了 第 三 方 数据 后 ， 附 加 值 不 一 定 高 。 例 如 ， 数 据 显示 在 一 系列 细 分 市 场 上 
(每 1000 个 随机 用 户 做 一 个 细 分 ) ， 自 有 数据 的 附加 值 高 达 1.80 美 元 。 然 后 ， 使 用 自己 数据 和 第 三 方 数据 进行 实验 ， 大 家 猜 发 
生 了 什么 ?还 是 每 1000 个 随机 用 户 做 一 个 细 分 ， 但 附加 值 现 在 只 有 约 为 0.02 美 元 或 更 低 。 在 同样 拥有 了 背景 数据 的 情况 下 ， 额 
外 数据 提供 的 价值 可 以 忽略 不 计 (图 11-2) ,这 很 可 能 是 因为 数据 元 余 。 





价值 
(基线 数据 ) 


EE 
基线 数据 增 量 数据 
数据 量 


图 11-2 ”数据 量 的 增加 将 会 带 来 价值 的 增加 ， 但 增长 速度 在 递减 [ 


这 种 一 般 方 法 通常 有 效 ， 是 因为 他 们 至 少 可 以 从 数据 提供 商 那里 获得 一 份 样本 数据 进行 测 坛 。 如 果 证 明 有 经 济 价值 ， 可 以 再 
购买 整套 数据 集 。 也 就 是 说 ， 直 到 他 们 进行 了 一 些 实验 来 评估 价值 ， 才 决定 是 否 购买 ， 但 对 供应 商 来 说 并 不 总 是 这 样 ， 我 们 可 以 
先 付 一 个 月 费用 进行 实验 ， 以 确定 数据 价值 并 判断 服务 是 否 具有 高 投资 回报 率 ， 如 果 没有 ， 就 停止 服务 。 


随 着 “大 数据 ”成 为 许多 业务 优化 决策 的 灵丹妙药 ， 管 理 人 员 能 够 评估 通过 数据 驱动 决策 的 结果 ， 能 够 证 明 在 获取 和 使 用 数 
据 方 面 的 投资 价值 ， 变 得 越 来 越 重要 。 没 有 这 些 可 以 进行 评估 的 工具 ， 大 数据 更 多 的 是 一 个 基于 信仰 的 倡议 而 不 是 一 个 科学 实 
践 。 


[1 资料 来 源 : http://bit.ly/dalessandro-predictive。 


11.6 ”数据 保留 


在 本 节 中 ， 为 了 增加 数据 分 析 师 处 理 的 数据 ， 我 们 专注 于 获取 和 集成 额外 的 数据 ， 这 些 数据 可 能 会 过 时 或 不 相关 。 之 前 我 们 
提 到 过 ， 数 据 的 存储 、 维 护 与 购买 都 是 需要 成 本 的 ， 当 数据 泄露 时 将 造成 什么 样 的 业务 损失 ， 这 是 不 太 容 易 估 计 的 风险 和 成 本 。 
面 对 这 些 成 本 ， 需 要 考虑 的 一 个 问题 是 何 时 删除 数据 ， 以 及 何 时 将 数据 转移 到 合适 的 存储 介质 中 。 


数据 通常 是 需要 备份 的 ， 仪 仅 将 数据 集 加 载 到 关系 数据 库 中 是 不 够 的 ， 数 据 还 应 该 保存 到 一 个 或 多 个 从 数据 库 中 ， 以 防 主 数 
据 库 服务 器 宕 机 。 如 果 在 服务 器 上 有 两 个 副本 进行 备份 ， 通 常会 使 用 几 天 或 者 一 周 的 备份 来 防止 出 错 。 但 如 果 副 本 增加 ， 成 本 也 
会 相应 增加 。 在 恢复 数据 集 时 ， 我 们 要 做 的 是 根据 相关 延 时 需求 (恢复 备份 所 需 的 时 间 ) 来 匹配 数据 集 。 


举 个 例子 ， 亚 马 逊 有 一 种 廉价 上 且 易 用 的 数据 存储 服务 Amazon S3 (简单 存储 服务 ) 。 如 果 将 备份 存储 在 这 样 的 服务 上 ， 价 
格 便宜 目 不 需要 额外 的 维护 ， 当 需要 数据 时 可 以 立即 获取 。 亚 马 逊 还 提供 一 个 类 似 的 服务 叫 Amazon Glacier， 功 能 基本 上 与 S3 
相同 ,但 Amazon Glacier 的 主要 作用 是 归档 服务 ， 数 据 恢复 需要 4 至 5 小 时 。 按 目前 价格 计算 ， 这 大 约 是 S3 成 本 的 三 分 之 一 ， 选 
择 哪 一 种 存储 服务 就 要 看 当 数 据 出 了 问题 时 ， 是 立即 需要 这 些 数据 还 是 可 以 在 几 个 小 时 乃至 一 天 内 都 可 以 没有 这 些 数据 。 


一 个 数据 驱动 公司 应 该 仔细 思考 其 数据 价值 ， 重 点 关注 核心 数据 ， 对 于 这 种 数据 任何 停机 都 可 能 产生 不 可 忽视 的 影响 。 而 历 
史 数 据 和 不 相关 数据 应 该 考虑 删除 (说 起 来 容易 做 起 来 难 ) ， 如 果 做 不 到 ， 那 么 应 该 考虑 将 其 移动 到 最 便宜 的 适当 介质 中 ， 如 异 
地 的 磁带 存档 。 


更 多 的 数据 驱动 公司 ， 比 如 能 够 实现 预测 建 模 的 公司 ， 可 以 创建 “多 维 ” 数 据 模型 ， 捕 获 数据 的 关键 特征 ， 并 丢弃 不 相关 的 
数据 。C9 的 首席 执行 官 迈克 尔 : 寺 华 德 说 “Salesforce 交 易 的 历史 数据 会 保留 不 超过 90 天 ”。 在 这 些 情 况 下 ， 对 数据 细节 的 选择 
至 关 重 要 。 


正如 我 们 所 说 的 ， 一 个 数据 驱动 公司 需要 在 战略 上 思考 如 何 获取 、 维 护 数据 源 和 公司 资源 。 分 析 师 的 重要 角色 是 ， 通 过 研究 
可 能 的 数据 来 源 和 数据 供应 商 获 得 样本 ， 并 在 可 能 的 情况 下 考量 样本 来 确定 数据 的 质量 和 价值 。 


第 12 章 ”数据 质量 和 数据 预 处 理 


本 章 介绍 数据 预 处 理 的 概述 。12.1 节 介绍 定义 数据 质量 的 许多 要 素 ， 这 是 数据 预 处理 背 后 的 动机 。12.2 节 概述 数据 预 处 理 中 
的 主要 任务 。 


12.1 数据 质量 : 为 什么 要 对 数据 做 预 处理 


数据 只 有 能 满足 预期 的 用 途 ， 才 算是 有 质量 的 。 数 据 质量 由 许多 因素 决定 ， 包 括 准 确 性 、 完 整 性 、 一 致 性 、 及 时 性 、 可 信和 度 
和 可 解释 性 。 


想象 你 是 All Electronics 的 一 名 经 理 ， 负 责 分 析 涉 及 你 部 门 的 公司 销售 数据 。 你 仔细 审查 公司 的 数据 库 和 数据 仓库 ， 识 别 并 
选择 分 析 中 要 包含 的 属性 或 维度 (例如 ，item、price 和 units_sold) 。 你 注意 到 ， 有 些 数据 记录 的 部 分 属性 没有 值 。 为 了 进行 
分 析 ， 你 希望 知道 每 种 购 进 的 商品 是 否 做 了 销售 广告 ， 但 你 发 现 该 信息 并 没有 被 记录 进来 。 此 外 ， 数 据 库 系统 的 一 些 用 户 反映 了 
记录 错误 、 异 常 值 和 和 某 些 事务 数据 不 一 致 的 情况 。 换 名 话说， 你 期 望 通过 数据 挖掘 技术 来 分 析 的 数据 是 不 完整 的 (缺少 属性 值 或 
某 些 感 兴趣 的 属性 ， 或 只 有 聚合 数据 ) 、 不 准确 或 有 噪声 的 (包含 错误 或 偏离 预期 的 值 ) 和 不 一 致 的 〈 例 如 ， 用 于 商品 分 类 的 部 
门 编码 存在 差异 ) 。 这 就 是 现实 ! 


这 个 设想 说 明了 定义 数据 质量 的 三 个 要 素 : 准确 性 、 完 整 性 和 一 致 性 。 人 存在 不 准确 、 不 完整 和 不 一 致 的 数据 是 现实 中 大 型 数 
据 库 和 数据 仓库 的 共同 特点 。 导 致 数据 不 准确 (例如 ， 具 有 不 正确 的 属性 值 ) 的 原因 有 很 多 。 使 用 的 数据 收集 器 可 能 会 出 故障 ; 
在 数据 输入 时 可 能 发 生 了 人 为 或 计算 机 错误 ; 当 用 户 不 希望 提交 个 人 信息 (例如 ， 选 择 默 认 显示 的 “1 月 1 日 ”为 生日 ) 时 ,他 
可 以 有 意 地 提交 不 正确 的 必 填 字段 的 数据 值 …… 这 就 是 变相 丢失 的 数据 。 也 可 能 在 数据 传输 中 发 生 错 误 。 这 些 可 能 是 由 于 技术 上 
的 限制 ， 例 如 用 于 数据 传输 同步 的 缓冲 区 大 小 的 限制 。 不 正确 的 数据 也 可 能 是 由 于 命名 规范 或 数据 代码 不 一 致 ， 或 输入 字段 ( 例 
如 日 期 ) 的 格式 不 一 致 导 致 的 。 重 复 的 记录 也 需要 数据 清洗 。 


不 完整 的 数据 可 能 由 于 多 种 原因 而 产生 。 有 些 感 兴趣 的 属性 (例如 销售 交易 数据 的 客户 信息 ) 并 非 总 是 可 用 的 。 其 他 数据 没 
有 被 包含 进来 ， 可 能 是 因为 它们 在 导入 时 就 不 被 认为 是 重要 的 。 由 于 理解 错误 或 设备 故障 ， 也 可 能 导致 无 法 记录 相关 数据 。 与 其 
他 记录 数据 不 一 致 的 数据 可 能 已 删除 。 此 外 ， 数 据 的 历史 记录 或 修改 可 能 会 被 忽略 。 缺 失 的 数据 ， 特 别 是 某 些 属性 值 缺失 的 记 
录 ， 可 能 需要 被 重新 推算 出 来 。 


回想 一 下 ， 数 据 质量 取决 于 数据 的 预期 用 途 。 两 个 不 同 的 用 户 可 能 对 给 定数 据 库 质量 的 评估 大 不 相同 。 例 如 ， 营 销 分 析 师 可 
能 需要 访问 前 面 提 到 的 数据 库 以 获取 客户 地 址 列表 。 一 些 地 址 是 过 时 的 或 不 正确 的 ， 但 总 体 来 说 ，80% 的 地 址 是 准确 的 。 营 销 分 
析 师 认为 这 是 一 个 大 型 的 客户 数据 库 ， 利 用 其 进行 营销 时 ， 对 数据 库 的 准确 性 感到 满意 。 但 作为 销售 经 理 ， 可 能 发 现 数据 是 不 准 
确 的 。 


及 时 性 也 会 影响 数据 质量 。 假 设 你 正在 监督 每 月 给 All Electronics 的 顶级 销售 代表 销售 奖金 的 分 配 。 但 是 ， 几 个 销售 代表 未 
能 在 月 底 时 提交 销售 记录 。 还 有 一 些 修正 和 调整 在 当月 结束 后 走 流程 。 在 每 个 月 后 的 一 段 时 间 内 ， 存 储 在 数据 库 中 的 数据 是 不 完 
整 的 。 但 是 ， 一 旦 接收 到 所 有 数据 ， 则 是 正确 的 。 月 末 数 据 未 及 时 更 新 的 事实 对 数据 质量 是 具有 负面 影响 的 。 


另外 两 个 影响 数据 质量 的 因素 是 可 信和 度 和 可 解释 性 。 可 信和 度 反映 了 用 户 相信 数据 的 程度 ， 而 可 解释 性 指出 了 数据 可 被 理解 的 
容易 度 。 假 如 某 个 数据 库 曾 有 几 处 错误 ， 所 有 的 这 些 错误 也 已 被 修正 ， 然 而 ， 过 去 的 错误 会 给 销售 部 门 的 用 户 造 成 很 多 问题 ， 
此 ， 他 们 不 再 相信 这 些 数据 。 数 据 也 会 使 用 很 多 会 计 代 码 ， 此 时 销售 部 门 不 知 如 何 解释 它们 。 即 使 数据 库 现 在 是 准确 、 完 整 、 一 
致 和 及 时 的 ， 但 是 销售 部 门 的 用 户 可 能 会 因为 其 较 差 的 可 信 度 和 可 解释 性 ， 认 为 它 是 低 质量 的 。 


12.2 ”数据 预 处 理 的 主要 工作 


这 一 节 ， 我 们 主要 介绍 数据 预 处 理 涉及 的 主要 步骤 ， 即 数据 清洗 、 数 据 集成 、 数 据 规约 和 数据 转换 。 


数据 清洗 程序 通过 填充 缺失 值 、 平 滑 噪 声 数 据 、 识 别 或 者 删除 异常 值 ， 以 及 解决 不 一 致 性 来 “清洗 ”数据 。 如 果 用 户 认 为 数 
据 是 脏 的 ， 他 们 就 不 太 可 能 相信 任何 使 用 数据 挖掘 得 来 的 结果 。 此 外 ， 脏 数据 会 引发 挖掘 过 程 的 混乱 ， 导 致 不 可 靠 的 输出 。 尽 管 
大 多 数 数据 挖掘 都 有 一 些 用 于 处 理 不 完整 或 噪声 数据 的 程序 ， 但 它们 并 不 总 是 合适 的 。 相 反 ， 他 们 可 能 聚焦 到 避免 数据 的 过 度 拟 
合 ， 而 不 是 正在 建 模 的 函数 。 因 此 ， 一 个 有 用 的 预 处 理 步 又 就 是 通过 一 些 数据 清理 程序 处 理 你 的 数据 。 


回 到 All Electronics 的 任务 ， 假 定 在 分 析 中 包括 多 个 数据 源 的 数据 。 这 将 会 涉及 集成 多 个 数据 库 、 数 据 立 方 体 或 文件 ( 即 数 
据 集成 ) 。 然 而 ， 表 示 同 一 概念 的 一 些 属性 在 不 同 的 数据 库 中 可 能 具有 不 同 的 名 称 ， 导 致 不 一 致 和 匈 余 。 例 如 ， 用 于 客户 标识 的 
属性 在 一 个 数据 存储 中 被 称 为 customer id， 而 在 另 一 个 数据 存储 中 被 称 为 cust id。 命名 的 不 一 致 也 可 能 出 现在 属性 值 中 。 例 
如 ， 相 同 的 名 字 可 能 在 一 个 数据 库 中 注册 为 “Bil”， 在 另 一 个 数据 库 中 注册 为 “Wiliam” ， 在 第 三 个 数据 库 中 注册 为 “B”。 
此 外 ， 你 怀疑 某 些 属性 可 能 是 从 其 他 属性 推算 出 来 的 〈 例 如 ， 年 收入 ) 。 大 量 元 余数 据 可 能 会 减 慢 知识 发 现 过 程 或 使 之 陷入 混 
乱 。 显 然 ， 除 了 数据 清洗 ， 还 必须 采取 措施 避免 在 数据 集成 期 间 出 现 元 余 。 通 常 ， 在 为 数据 仓库 准备 数据 时 ， 数 据 清洗 和 数据 集 
成 都 将 作为 预 处 理 步骤 进行 。 附 加 的 数据 清洗 还 可 以 检测 和 消除 可 能 由 数据 集成 导致 的 元 余 。 

随 着 进一步 考虑 数据 ， 你 想 知道 ，“ 我 选择 用 于 分 析 的 数据 集 是 巨大 的 ， 这 肯定 会 减 慢 挖 扎 过 程 。 是 否 有 一 种 方法 可 以 减少 
数据 集 的 大 小 ， 而 不 影响 数据 挖 扎 结 果 ? ”数据 规约 就 是 一 个 数据 集 的 规范 约束 ， 其 体 量 小 得 多 ,但 产生 相同 (或 几乎 相同 ) 的 
分 析 结 果 。 数 据 规约 包含 了 维度 规约 (dimensionality reduction) 和 数值 规约 (numerosity reduction) 。 


在 维度 规约 中 ， 数 据 编码 方案 用 来 获得 原始 数据 的 简化 或 者 “压缩 ”表示 。 例 如 包括 数据 压缩 技术 〈 例 如， 小 波 变 换 和 主 成 
分 分 析 ) 、 属 性 子 集 选 择 (例如 ， 去 除 不 相关 的 属性 ) 和 属性 构造 (例如 ， 从 原始 集合 中 导出 更 小 的 一 组 更 有 用 的 属性 ) 。 


在 数值 规约 中 ， 数 据 被 选择 性 地 替代 ， 我 们 使 用 参数 模型 例如， 回归 或 对 数 线性 模型 或 非 参 数 模型 (例如 ， 直 方 图 、 聚 
、 采 样 或 数据 聚集 ) 获得 数据 更 细 的 表示 。 


状 


回 到 数据 上 ， 假 设 你 已 经 决定 使 用 基于 距离 的 挖掘 算法 进行 分 析 ， 如 神经 网 络 、 最 近邻 分 类 器 或 聚 类 。 如 果 要 分 析 的 数据 已 
经 被 归 一 化 ， 即 按 比 例 映 射 到 一 个 特定 的 区 间 [0.0，1.0]， 则 这 些 方法 能 提供 更 好 的 结果 。 例 如 ， 你 的 客户 数据 包含 年 龄 和 年 薪 
属性 。 年 薪 属 性 取 值 范围 通常 需要 比 年 龄 大 得 多 。 因 此 ， 如 果 属 性 未 被 归 一 化 ， 距 离 度 量 对 年 薪 所 取 的 权重 一 般 要 超过 对 年 龄 所 
取 的 权重 。 离 散 化 和 概念 层次 生成 也 很 有 用 ， 其 中 属性 的 原始 值 被 域 或 更 高 的 概念 级 别 蔡 代 。 例 如 ， 年 龄 的 原始 值 可 以 被 更 高 级 
别 的 概念 代 蔡 ， 像 青年 、 成 年 或 老年 。 


离散 化 和 概念 层次 生成 是 用 于 数据 挖掘 的 强大 工具 ， 因 为 它们 人 允许 在 多 个 抽象 级 别 进行 数据 挖掘 。 归 一 化 、 离 散 化 和 概念 层 
次 生成 是 数据 变换 的 形式 。 这 种 数据 转换 操作 是 额外 的 数据 预 处理 程 序 ， 将 有 助 于 成 功 地 挖掘 数据 。 


图 12-1 总 结 了 以 上 描述 的 数据 预 处 理 的 步骤 。 注 意 上 面 提 到 的 分 类 不 是 相互 排斥 的 。 例 如 ， 宛 余 的 数据 移 除 既 可 以 视 为 数 
据 清洗 的 一 种 形式 ， 也 可 以 当 作 一 种 数据 规约 。 
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数据 转换 。 一 2, 32, 100, 59, 48 一 一 > 一 0.02, 0.32, 1.00, 0.59, 0.48 
图 12-1 ”数据 预 处 理 的 步骤 


总 之 ， 现 实 中 的 数据 往往 是 脏 的 、 不 完整 的 和 不 一 致 的 。 数 据 预 处 理 技术 能 提高 数据 的 质量 ， 从 而 有 助 于 提高 后 续 挖掘 过 程 
的 准确 性 和 效率 。 高 质量 的 决策 必须 基于 高 质量 的 数据 ， 因 此 数据 预 处 理 是 知识 发 现 过 程 中 的 一 个 重要 步骤 。 检 测 数据 异常 ， 及 


早 纠正 数据 ， 规 约 要 分 析 的 数据 ， 将 在 决策 过 程 得 到 高 回报 。 


第 13 章 ”数据 安全 和 隐私 


所 有 项 目 对 数据 隐私 保护 的 考虑 应 该 从 数据 收集 的 那 一 刻 开 始 。 在 数据 生命 周期 的 每 一 个 阶段 都 必须 解决 隐私 问题 ， 包 括 收 


集 、 人 存储 、 分 析 、 利 用 、 和 存档 、 清 理 和 销毁 。 不 过 在 此 ， 我 们 着 重 介绍 数 据 收集 阶段 的 隐私 问题 。 


在 信息 安全 和 数据 收集 方面 ， 昌 然 一 些 做 法 不 能 完全 实现 隐私 保护 ， 但 也 是 必需 的 。13.2 节 和 13.3 节 将 前 述 一 些 成 功 实施 隐 


私 保护 的 案例 。 然 而 ， 对 隐私 保护 的 设计 是 为 了 限制 那些 已 经 被 明确 授权 的 用 户 造成 的 损害 ， 这 些 用 户 基于 某 些 目的 被 允许 访问 
数据 。 但 是 ， 对 未 经 授权 数据 的 访问 怎么 办 ? 如 果 从 一 开始 就 可 以 规避 隐私 控制 ， 那 么 世界 上 的 所 有 隐私 控制 都 是 之 无 意义 的 。 
因此 ， 信 息 安 全 是 为 了 限制 未 经 授权 的 数据 访问 ， 是 构建 安全 隐私 系统 的 基础 。 


同时 ， 如 果 管 理 的 目标 不 是 可 靠 地 收集 数据 ， 那 么 世界 上 的 所 有 隐私 控制 (以 及 为 保护 它们 而 建立 的 任何 信息 安全 ) 都 是 无 
效 的。 保护 隐私 意味 着 从 一 开始 收集 数据 到 最 终 把 数据 保存 到 有 隐私 保护 的 数据 仓库 中 ， 在 每 个 阶段 都 必须 尽职 地 处 理 数据 。 


数据 收集 可 能 仅仅 是 一 些 有 用 的 问题 和 实际 情况 的 简要 概述 ， 但 上 升 到 信息 安全 的 层面 上 ， 这 就 只 是 冰山 一 角 了 。 


13.1 数据 收集 : 了 解 隐私 的 最 前 沿 

从 系统 安全 衍生 出 来 的 一 个 问题 是 如 何 可 靠 地 收集 数据 ， 更 加 确切 地 说 ， 是 如 何 生成 或 记录 关于 人 的 数据 (包括 个 人 数据 和 
聚合 数据 ) 。 

“关于 人 的 数据 ”是 一 个 很 宽泛 的 概念 。 事 实 上 ， 它 有 多 种 表现 形式 。 一 些 常见 的 例子 如 下 。 

: 在 服务 提供 商 的 服务 器 上 的 电子 邮件 ; 

* 服务 提供 商 服务 器 上 的 语音 邮件 ; 

Web 服务 器 日 志 ， 

: 用 户 提 交 的 表单 信息 ; 

: 提交 到 中 央 服 务 器 的 崩 演 报告 ; 

. 数字 化 的 纸 质 表单 ， 

"上传 的 照片 ， 

.电话 元 数据 ; 

“ 嗅 探 到 的 网 络 通信 ; 

“ 金融 交易 数据 ; 

记录 的 医学 成 像 数据 ; 

闭路 电视 录像 ; 

. 智能 手机 上 的 位 置 跟踪 数据 库 ; 

. 手机 基站 的 位 置 跟踪 数据 库 。 


数据 的 特征 和 来 源 是 确定 处 理 过 程 的 重要 因素 。 我 们 将 从 以 下 两 个 不 同 的 角度 来 考虑 : 策略 角度 ， 什 么 是 数据 收集 ， 以 及 为 
什么 要 进行 数据 收集 ; 实施 角度 ， 收 集 过 程 是 如 何 进 行 的 。 这 部 分 是 为 了 确保 技术 实现 正确 地 按照 策略 决定 执行 。 


13.2 策略 考虑 因素 


保护 敏感 数据 的 最 简单 的 方法 是 从 开始 就 避免 收集 它们 。 在 隐私 圈子 中 ， 这 被 称 为 适度 (proportionality) 原则 一 一 只 收 
集 和 保留 完成 目标 所 必需 的 数据 。 然 而 ， 适 度 原则 在 实际 中 比较 难以 实施 。 因 为 在 当前 ， 许 多 公司 推崇 尽 可 能 多 地 收集 数据 ， 并 
基于 所 有 数据 都 是 有 价值 的 假设 下 进行 工作 ， 即 使 其 价值 在 收集 时 不 明显 。 


要 实现 适度 原则 首先 应 该 了 解 所 要 收集 数据 的 用 例 。 一 旦 清楚 地 描述 了 用 例 ， 就 可 以 精确 定位 支持 它们 所 需 的 实际 数据 。 通 
过 定义 必要 的 数据 ， 可 以 构建 收集 机 制 ， 以 过 滤 掉 与 明确 用 例 无 天 的 数据 ， 并 且 可 以 在 分 析 期 间 快 速 删除 不 相关 信息 。 此 外 ， 对 
于 需要 对 单个 记录 计算 聚合 并 且 不 需要 原始 数据 的 用 例 ， 进 行 聚合 运算 是 最 小 化 所 保持 的 敏感 数据 量 的 好 方法 。 例 如 ， 如 果 我 们 
正在 构建 一 个 用 于 计算 电话 系统 上 电话 呼叫 平均 长 度 的 系统 ， 则 在 其 呼叫 持续 时 间 被 计算 进 平均 值 之 后 ， 呼 叫 记录 本 身 (包括 电 
话 号 码 、 位 置 、 使 用 的 设备 等 ) 可 以 立即 被 丢弃 。 


在 极限 情况 下 ， 可 以 以 这 样 的 方式 设计 整个 系统 : 让 系统 中 的 数据 的 某 些 部 分 通过 加 密使 之 固有 地 不 可 收集 。 一 个 很 好 的 例 
子 是 最 近 Apple 的 iMessage 系 统 的 变动 ， 使 用 以 Apple 无 法 解密 的 方式 加 密 消 息 数据 。 这 种 加 密 技术 可 以 预先 阻止 外 部 程序 强制 
收集 超出 原本 预期 更 多 的 数据 ， 使 得 强制 收集 成 为 不 可 能 。 


同 态 加 密 (homomorphic encryption) 是 一 个 有 前 景 的 新 技术 ， 能 够 彻底 改变 隐私 保护 项 目的 策略 和 实施 。 同 态 加 密 系 
统 可 以 直接 对 加 密 后 的 数据 进行 计算 ， 而 不 需要 首先 对 数据 进行 解密 。 计 算 结 果 被 加 密 传递 给 客户 端 ， 对 执行 计算 的 系统 完全 不 
透明 。 这 通过 使 用 其 加 密 形式 ( 密 文 ) 满足 某 些 数学 关系 的 加 密 系统 来 实现 。 例 如 ， 密 文通 过 乘法 运算 产生 新 的 密 文 等 同 于 解密 
后 的 密 文 ， 对 明文 应 用 相同 的 乘法 可 以 得 到 对 该 明文 的 重新 加 密 的 密 文 。 


各 种 密码 系统 正在 获得 普及 并 且 变 得 越 来 越 复杂 。RSA 是 一 个 流行 的 密码 系统 ， 已 经 实现 了 同 态 乘法 。 此 外 在 2009 年 ， 斯 
坦 福 和 IBM 的 研究 人 员 创 建 了 一 个 同时 满足 同 态 乘法 和 同 态 加 法 的 系统 。 这 是 非常 值得 天 注 的 ， 因 为 乘法 和 加 法 可 以 通过 组 合 实 
现任 何 布尔 逻辑 运算 ， 这 使 大 数据 量 运 算得 以 顺利 执行 。 使 用 这 样 的 系统 ， 理 论 上 可 以 对 加 密 后 的 数据 进行 任何 变换 或 搜索 ， 而 
不 会 透露 任何 明文 数据 的 内 容 。 


从 操作 角度 来 讲 ， 这 意味 着 系统 中 的 所 有 数据 可 以 在 加 密 后 存储 在 第 三 方 系 统 上 ， 比 如 云 主 机 提供 商 提 供 的 部 署 在 公 网 的 虚 
拟 专用 服务 器 (VPS) 。 第 三 方 系统 可 以 对 加 密 数据 执行 各 种 计算 ， 而 不 必 在 系统 中 保留 未 加 密 的 明文 数据 。 这 不 仅 不 用 担心 数 
据 被 拦截 和 窃听 ， 而 且 还 意味 着 可 以 执行 不 需要 访问 明文 的 服务 。 从 逻辑 上 的 极端 考虑 ， 这 意味 着 理论 上 一 项 服务 可 以 在 完全 无 
需 访 问 其 未 加 密 操作 数据 的 情况 下 得 以 实行 。 这 基本 上 将 对 传统 数据 收集 的 需求 降低 到 零 。 可 以 想象 在 医疗 诊断 服务 或 税务 准备 
服务 中 ， 服 务 提供 商 仪 对 同 态 加密 的 数据 进行 操作 ， 并 且 不 会 对 这 些 过 程 中 涉及 的 敏感 个 人 详细 信息 有 任何 形式 的 访问 。 


举 一 个 很 好 的 关于 增强 隐私 权 的 可 能 性 的 简单 分 析 的 例子 ，Google 的 Gmail 是 一 个 免费 的 网 络 邮件 服务 ， 它 能 根据 用 户 的 
电子 邮件 内 容 向 该 用 户 推送 广告 。 昌 然 Google 坚 持 宣称 没有 任何 人 看 到 用 户 电子 邮件 的 私人 内 容 ， 但 邮件 内 容 被 机 器 分 析 的 事 
实 使 得 一 些 人 感到 他 们 的 隐私 被 侵犯 。 使 用 同 态 加 密 ， 用 户 的 电子 邮件 可 以 以 加 密 形 式 提交 给 广告 选择 算法 。 然 后 该 算法 将 在 加 
密 的 数据 上 运行 ， 并 产生 要 放置 在 用 户 屏幕 顶部 的 广告 。 虽 然 可 以 通过 推送 给 用 户 的 广告 选择 推 疡 出 用 户 电子 邮 件 的 某 些 内 容 ， 
但 是 这 样 的 系统 为 用 户 保留 了 更 多 的 隐私 ， 因 为 电子 邮件 的 内 容 不 会 被 算法 看 到 。 


不 笠 的 是 在 实践 中 ， 同 态 加 密 似乎 还 有 很 长 的 路 要 走 。 在 撰写 本 文 (2015 年 ) 时 ， 同 态 加 密 比 明文 计算 多 几 十 亿 到 数 万 亿 
的 计算 量 。 尽 管 有 几 家 供应 商 在 致力 于 将 更 高 效 的 系统 推 向 市 场 ， 但 在 可 预见 的 未 来 ， 同 态 加 密 只 会 用 于 信息 高 度 敏感 但 计算 量 
不 大 的 场景 中 。 


一 旦 决定 开始 收集 数据 ， 根 据 收集 的 场景 ， 特 定数 据 集 需 要 应 用 到 与 之 对 应 的 大 量 法 律 条 文 ， 比 如 窃听 、 电 信 、 就 业 、 医 疗 
保健 等 。 更 基本 的 数据 ， 比 如 数据 收集 和 存储 的 物理 位 置 ， 与 之 对 应 的 相关 法 律 有 可 能 最 终 对 数据 系统 有 决定 性 的 影响 。 不 要 被 
所 谓 的 “开源 ”数据 欺骗 一 一 通过 Google 搜 索 可 以 获得 数据 ， 并 不 意味 着 这 些 数据 的 收集 和 分 析 不 受 相 关 的 法 规 的 限制 。 收 集 


的 初始 范围 可 能 带 来 重大 风险 和 责任 ， 并 可 能 对 系统 的 最 终 设 计 增加 许多 架构 限制 。 所 以 在 构建 系统 之 前 咨询 法 律 专家 很 重要 ， 
可 以 确保 你 了 解 系统 管理 的 数据 所 需要 满足 的 法 规 。 


美国 和 欧盟 都 有 个 人 数据 的 法 律 概念 (可 用 于 识别 或 区 分 个 人 的 信息 ) 。 


在 美国 ， 这 被 称 为 个 人 身份 信息 (PIl) 。 根 据 国家 标准 与 技术 研究 所 定义 ，Pll 是 由 机 构 维护 的 个 人 的 任何 信息 ,包括 : @ 
可 用 于 区 分 或 追踪 个 人 身份 的 任何 信息 ， 例 如 姓名 、 社 会 安全 号 码 、 出 生日 期 、 出 生地 、 和 母亲 的 婚前 姓名 或 生物 特征 资料 ;，@ 与 
个 人 相关 的 任何 其 他 信息 ， 例 如 医疗 、 教 育 、 金 融和 就 业 信 息 。 


在 欧盟 ， 个 人 数据 被 定义 为 与 已 识别 或 可 识别 的 自然 人 (数据 主体 ) 有 关 的 任何 信息 ; 可 识别 的 人 是 可 以 直接 或 间接 地 ， 特 
别 是 通过 身份 证 号 码 或 者 通过 身份 、 生 理 、 心 理 、 经 济 、 文 化 或 社会 身份 等 一 个 或 多 个 因素 来 识别 的 人 。 


PII 是 与 个 人 直接 相关 的 任何 信息 。 姓 名 、 社 会 安全 号 码 、 驾 驶 证 号 码 、 身 份 证 号 码 、 电 话 号 码 和 电子 邮件 地 址 都 是 常见 的 
PII 的 示例 。 然 而 ， 关 于 PINI 的 构成 问题 ， 没 有 普遍 的 共识 。 例 如 ， 根 据 美国 法 律 |P 地 址 不 被 视 为 PII， 而 欧盟 法 律 中 认为 它 是 。 


此 外 ， 有 些 数据 尽管 不 是 必然 与 个 人 绑 定 ， 但 能 够 对 身份 指示 提供 足够 丰富 的 信息 ， 因 此 值得 更 高 的 保护 关注 。 一 些 示例 包 
括 : 


. SIM 卡 卡号 (ICCID) ; 

. SIM 卡 国际 移动 用 户 识别 码 (IMSI) ; 
移动 设备 标识 码 (MEID) ; 

. 广告 网 络 的 跨 网 站 Cookie; 
汽车 车 牌号 码 ; 

.WiFi MAC 地 址 ; 

. 蓝牙 MAC 地 址 。 


之 前 ， 数 据 收集 器 可 以 相对 容易 地 从 数据 集中 清除 所 有 个 人 标识 信息 ， 这 样 可 以 在 使 用 时 认为 数据 集 没有 任何 的 隐私 问题 。 
然而 在 大 数据 时 代 ， 仪 仅 进 行 匿名 化 是 不 够 的 。PI 和 非 PlI 之 间 的 区 别 已 经 开始 模糊 。 现 在 可 以 将 没有 任何 个 人 标识 信息 的 数据 
与 其 他 数据 集合 在 一 起 来 识别 个 体 ， 最 终 获得 清晰 的 身份 信息 ， 这 一 过 程 被 称 为 重 识别 (re-identification) 。 


例如 ， 关 于 新 药物 的 临床 试验 中 的 患者 的 信息 。 通 过 从 数据 集中 删除 姓名 、 住 址 和 其 他 个 人 标识 符 ， 数 据 所 有 者 可 以 将 数据 
提供 给 医学 研究 人 员 ， 并 认为 毫 无 隐私 风险 。 然 而 临床 试验 数据 可 能 记录 了 参与 者 正在 服用 的 其 他 药物 的 信息 。 通 过 将 临床 试验 
患者 数据 与 药店 记录 或 医疗 历史 相 结 合 ， 可 以 重 识别 匿名 的 患者 数据 。 


因此 ， 数 据 收集 有 两 个 层次 的 含义 。 首 先 ， 如 果 收 集 的 数据 符合 PlI 的 经 典 定义 ， 应 在 整个 数据 收集 过 程 中 确保 实施 隐私 控 
。 其 次 ，PII 操 作 定义 的 构成 相当 广泛 ， 应 该 确认 收集 到 的 数据 是 否 只 是 一 个 关联 的 数据 集 ， 而 不 揭示 个 人 隐私 信息 。 


进 


在 过 去 几 十 年 里 ， 技 术 的 变化 速度 远 远 超过 了 立法 机 构 和 法 院 的 反应 速度 。 因 此 ， 有 一 些 新 的 数据 收集 类 型 不 违反 法 律 的 规 
定 ， 但 可 能 违反 现行 法 律 中 规定 的 隐私 保护 的 主唱。 因此 ， 负 责任 的 技术 人 员 在 法 律 灰色 地 带 收集 和 使 用 数据 时 ， 应 特别 注意 隐 
私 问题 。 


其 中 一 个 灰色 区 域 就 是 公共 和 私人 部 门 使 用 的 车 牌 自 动 识别 (ALPR) 数据 。ALPR 技 术 使 用 摄像 机 来 捕获 公共 街道 上 的 车 辆 
的 车 牌 图 像 (以 及 时 间 、 日 期 和 地 理 位 置信 息 ) 。 这 些 摄像 机 可 以 安装 在 固定 位 置 或 移动 车 辆 上 。 它 们 目前 由 几 个 州 的 地 方 执法 


机 构 以 及 私营 公司 (其 经 常 将 这 些 数据 出 售 给 政府 机 构 ) 经 营 。 根 据 现场 摄像 机 的 数量 和 对 该 数据 的 复杂 分 析 ，ALPR 系 统 可 以 
揭示 个 人 活动 的 详细 信息 并 从 该 信息 中 得 出 潜在 的 敏感 信息 ， 诸 如 车 辆 的 驾驶 员 是 否 参加 一 个 教会 ， 常 去 一 个 同性 恋 酒吧 ， 或 参 
加 政治 抗议 。 然 而 ， 由 于 车 牌 对 于 在 公共 街道 上 的 任何 人 都 是 明显 可 见 的 ， 法 律 还 没有 区 分 普通 观看 和 自动 观看 。 当 前 ， 收 集 和 
使 用 ALPR 数 据 仍然 是 允许 的 。 


驾驶 者 可 能 不 完全 知道 当 他 们 行驶 过 公共 街道 时 ， 能 够 被 收集 、 捕 获 和 推断 出 的 潜在 信息 的 范围 。 在 构建 这 些 系统 时 ， 技 术 
开发 人 员 和 前 期 的 数据 接受 者 应 牢记 对 个 人 隐私 的 合理 使 用 范围 ， 合 理 的 保护 隐私 的 措施 应 当 纳 入 法 律 考虑 范围 ， 并 据 此 调整 技 
术 创 新 。 


13.3 ”实施 考虑 因素 


即使 我 们 仔细 地 考虑 数据 收集 策略 来 解决 上 述 问 题 ， 但 体系 架构 的 失误 仍 会 使 系统 的 行为 和 制定 的 策略 相 违 背 ， 尽 管 是 无 意 
的 。 下 面 是 在 设计 系统 的 技术 实现 时 要 考虑 的 一 些 问题 一 一 两 个 要 重点 规避 的 ， 以 及 一 个 必须 要 包括 的 。 


在 收集 数据 的 时 候 ， 通 常 最 容易 的 是 完全 复制 当前 表单 数据 。 例 如 ， 如 果 我 们 正在 构建 一 个 系统 来 分 析 由 企业 内 部 网 络 的 电 
子 邮 件 连接 情况 组 成 的 社交 网 络 ， 则 数据 收集 点 可 能 是 网 络 中 所 有 邮件 都 流 经 的 邮件 服务 器 之 一 。 虽 然 对 邮件 收 件 人 和 发 件 人 的 
分 析 只 需要 对 邮件 头 部 信息 (元 数据 ) 而 不 是 实际 的 电子 邮件 正文 进行 分 析 ， 但 存储 邮件 本 身 的 副本 可 能 更 容易 ， 包 括 邮件 主体 

(邮件 正文 内 容 ) 。 即 使 限制 了 只 是 收集 邮件 头 部 ， 但 是 一 些 头 部 可 能 包括 邮件 主题 和 始 发 |P 地 址 ， 这 两 个 都 可 以 被 认为 是 敏感 
的 。 


当 避 免 收 集 非 必要 数据 是 不 可 能 或 无 法 实现 的 时 候 ， 应 将 当前 任务 所 需 的 数据 剥离 出 来 ， 在 理想 情况 下 使 用 数据 的 最 小 集 。 
例如 ， 对 于 电子 邮件 ， 需 要 被 记录 的 唯一 数据 应 该 是 发 送 者 和 接收 者 信息 ， 以 及 可 能 的 时 间 戳 (用 于 社交 网 络 链接 的 时 间 加 权 衰 
减 ) 。 


数据 收集 的 初始 点 通常 与 其 最 终 存 储 的 地 点 不 同 。 在 某 些 情况 下 ， 数 据 在 结束 系统 记录 之 前 会 经 历 好 几 个 步骤 ， 包 括 传输 、 
复制 和 转换 。 在 这 个 过 程 中 ， 数 据 可 能 产生 一 个 或 多 个 中 间 副 本 ， 这 些 副 本 同样 必须 保证 其 安全 性 。 


最 直接 的 方法 是 在 收集 点 对 数据 进行 加 密 ， 并 确保 它 一 直 保持 这 种 方式 ， 直 到 被 恰当 地 安置 在 有 严密 隐私 保护 的 最 终 系统 
中 ， 甚 至 在 这 之 后 也 可 以 保持 这 种 形态 。 如 果 数 据 在 收集 点 进行 加 密 ， 则 在 传输 中 的 中 间 副 本 的 安全 性 不 需要 依赖 于 系统 的 访问 
控制 。 


但 是 如 果 不 能 进行 初始 加 密 ， 中 间 副 本 至 少 应 该 受到 与 最 终 系统 相同 程度 的 严格 保护 。 该 保护 必须 适用 于 存储 副本 数据 的 持 
久 化 介质 (如 磁盘 ) ， 适 用 于 允许 多 用 户 共享 访问 的 系统 内 存 ， 以 及 明文 数据 在 未 加 密 的 网 络 传输 过 程 。 


审核 传输 过 程 用 于 存储 副本 数据 的 每 个 位 置 的 架构 ， 并 考虑 安全 机 制 的 范围 是 否 超出 或 小 于 记录 系统 (System-of- 
record) 。 不 安全 的 系统 可 能 允许 规避 正常 途径 的 访问 控制 ， 例 如 文件 系统 权限 控制 。 数 据 副 本 可 以 在 数据 收集 流程 之 外 创 
建 ， 例 如 系统 级 备份 过 程 。 清 除 这 些 副本 时 ， 确 保 使 用 安全 删除 操作 ， 例 如 用 随机 字 节 写 入 原始 数据 ， 这 也 是 一 种 保证 源 信息 安 
全 的 很 好 方式 。 


一 旦 数据 进入 了 一 个 较 大 的 存储 库 ， 要 识别 或 确立 原始 数据 的 来 源 和 获取 的 环境 可 能 变 得 很 困难 。 添 加 标记 (比如 提供 原始 
数据 的 更 多 信息 的 附加 元 数据 ) 通常 可 以 抵消 该 风险 。 


在 收集 数据 时 ， 使 用 基本 的 详细 信息 标记 来 记录 收集 数据 的 时 间 和 地 点 将 简化 最 终 数据 管理 的 任务 。 元 数据 允许 用 户 为 访问 
控制 和 其 他 目的 快速 排序 数据 。 为 未 来 用 户 提 供 有 用 的 上 下 文 (例如 数据 当事人 对 某 个 用 途 的 同意 记录 ) 添加 的 元 数据 越 多 ， 为 


这 些 用 户 提供 管理 该 数据 的 选项 就 越 多 。 


13.4 总 结 


数据 收集 是 数据 保管 流程 之 始 。 需 要 仔细 分 析 策 略 考 虑 因素 ， 包 括 法 律 法 规 和 系统 所 有 者 的 固有 需求 ， 以 了 解数 据 收集 的 敏 
感性 和 隐私 风险 。 从 这 个 角度 出 发 ， 你 可 以 开始 评估 收集 (以 及 不 收集 ) 哪些 数据 ， 以 及 如 何在 收集 之 后 负责 地 处 理 它 。 最 后 ， 
必须 在 技术 实施 的 开端 就 保持 警惕 ， 以 避免 数据 收集 过 程 中 可 能 危及 隐私 保护 的 常见 陷阱 ， 并 保留 收集 的 元 数据 以 便 在 之 后 的 数 
据 生 命 周期 中 实现 细微 的 隐私 控制 。 


第 五 篇 ”数据 科学 


第 14 章 ”数据 分 析 


如 果 你 拷问 数据 到 一 定 程度 ， 它 就 会 坦白 一 切 。 
一 一 罗 纳 德 . 科斯 
在 本 章 中 ， 我 们 将 介绍 数据 分 析 师 的 核心 活动 ， 重 点 关注 组 织 内 部 的 分 析 目 标 以 及 如 何 进 行 有 影响 力 的 分 析 。 
我 们 将 研究 一 些 活动 ， 如 分 析 数 据 ， 设 计 指 标 ， 获 得 洞察 结果 ， 以 及 向 决策 者 展示 或 销售 这 些 洞察 结果 、 想 法 和 建议 。 本 章 
先 着 重 于 分 析 本 身 。 


重要 的 是 ， 本 书 不 包括 如 何 执行 分 析 或 统计 推理 ， 因 为 有 许多 文章 可 以 参考 。 相 反 ， 考 虑 分 析 师 的 目标 : 对 于 分 析 师 来 说 分 
析 意 味 着 什么 ?他 们 试图 实现 什么 ?他们 的 工具 包 中 有 什么 工具 ? 


我 们 的 第 一 个 目标 是 突显 分 析 人 员 从 数据 获得 洞察 的 统计 和 可 视 化 工具 的 范围 。 第 二 个 目标 是 敦促 分 析 人 员 使 用 适当 的 工 
具 ， 并 在 必要 时 学 习 更 复杂 的 工具 ， 以 便 更 深入 地 了 解 手头 的 问题 。 


一 个 优秀 的 木工 需要 优质 的 原材料 (如 桃花 心 木 ) ， 一 系列 工具 (例如 羡 子 和 三 角 板 ) ， 以 及 知道 何 时 以 及 如 何 应 用 这 些 工 
具 。 如 果 缺 失 这 三 个 中 的 一 个 ， 最 终 产 品 的 质量 就 会 大 大 降低 。 而 分 析 也 是 如 此 。 要 获得 最 具 价值 的 分 析 产 品 ， 需 要 原材料 (高 
质量 的 数据 ) ， 一 系列 工具 (例如 不 同 的 分 析 技 术 ) ， 以 及 知道 何 时 以 及 如 何 应 用 这 些 分 析 工 具 。 


第 五 篇 ”数据 科学 


第 14 章 ”数据 分 析 


如 果 你 拷问 数据 到 一 定 程度 ， 
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一 一 罗 纳 德 . 科斯 
在 本 章 中 ， 我 们 将 介绍 数据 分 析 师 的 核心 活动 ， 重 点 关注 组 织 内 部 的 分 析 目 标 以 及 如 何 进行 有 影响 力 的 分 析 。 


我 们 将 研究 一 些 活动 ， 如 分 析 数 据 ， 设 计 指 标 ， 获 得 洞察 结果 ， 以 及 向 决策 者 展示 或 销售 这 些 洞察 结果 、 想 法 和 建议 。 本 章 
先 着 重 于 分 析 本 身 。 


重要 的 是 ， 本 书 不 包括 如 何 执行 分 析 或 统计 推理 ， 因 为 有 许多 文章 可 以 参考 。 相 反 ， 考 虑 分 析 师 的 目标 : 对 于 分 析 师 来 说 分 
析 意 味 着 什么 ? 他 们 试图 实现 什么 ? 他们 的 工具 包 中 有 什么 工具 ? 


我 们 的 第 一 个 目标 是 突显 分 析 人 员 从 数据 获得 洞察 的 统计 和 可 视 化 工具 的 范围 。 第 二 个 目标 是 敦促 分 析 人 员 使 用 适当 的 工 
具 ， 并 在 必要 时 学 习 更 复杂 的 工具 ， 以 便 更 深入 地 了 解 手头 的 问题 。 


一 个 优秀 的 木工 需要 优质 的 原材料 (如 桃花 心 木 ) ， 一 系列 工具 (例如 羡 子 和 三 角 板 ) ， 以 及 知道 何 时 以 及 如 何 应 用 这 些 工 
具 。 如 果 缺 失 这 三 个 中 的 一 个 ， 最 终 产 品 的 质量 就 会 大 大 降低 。 而 分 析 也 是 如 此 。 要 获得 最 具 价值 的 分 析 产 品 ， 需 要 原材料 (高 
质量 的 数据 ) ， 一 系列 工具 (例如 不 同 的 分 析 技 术 ) ， 以 及 知道 何 时 以 及 如 何 应 用 这 些 分 析 工 具 。 


14.1 什么 是 分 析 


术语 “分 析 ” 是 值得 我 们 花费 一 些 时 间 来 思考 的 。 它 源 于 希腊 语 ， 意 思 是 松 开 或 解 开 。 尽 管 这 一 解释 有 道理 ， 但 这 离 其 真正 
含义 还 有 一 定 距离 。 从 更 加 面向 商业 的 角度 ， 我 们 可 以 回顾 最 初 的 定义 。 


将 数据 资产 转变 为 竞争 洞察 ， 这 需要 通过 人 员 、 流 程 和 技术 来 推动 业务 决策 和 行动 。 





一 一 马里 奥 : 法 里 亚 


下 面 我 们 会 再 深入 剖析 一 下 。 我 们 已 经 对 “数据 资产 ”有 了 初步 的 认识 ， 但 什么 是 洞察 呢 ? 根据 维基 百科 ， 洞 察 是 对 特定 背 
景 下 的 具体 原因 和 效果 的 理解 。 该 术语 可 以 具有 几 个 相关 含义 : 


. 一 条 信息 。 
. 理解 事物 的 内 在 本 质 或 直观 地 看 到 的 行为 或 结果 (在 希腊 语 中 称 为 认 知 ) 。 
-内 省 。 

. 观察 和 推论 、 渗 透 、 认 别 、 感 知 的 力量 ， 称 为 智力 或 认 知 。 

. 基于 识别 模型 、 上 下 文 或 场景 中 的 关系 和 行为 的 因果 的 理解 。 


信息 是 “将 数据 处 理应 用 于 数据 ， 给 出 其 上 下 文 和 意义 的 结果 ”， 通 常用 作 数 据 的 同义词 ， 尽 管 技 术 上 它们 不 同 。 


数据 是 天 于 世界 的 未 经 处 理 的 事实 。 信 息 是 被 采集 和 处 理 的 数据 。 而 知识 是 一 组 关于 世界 的 人 工 模型 和 理解 ， 它 们 是 随 着 时 
间 的 推移 从 信息 构建 的 。 


“当前 温度 为 44"F。 ”这 是 一 个 事实 数字 ， 无 论 是 否 有 人 记录 或 观察 它 ， 它 都 真实 人 存在。 然而 ， 它 没有 用 ， 因 为 它 是 不 明 
确 的 ,缺乏 上 下 文 : 在 哪里 ? 什么 时 候 ? 


“2014 年 11 月 2 日 上 午 10 时 纽约 市 的 温度 为 44"F。” 这 是 更 加 情景 化 的 数据 。 然 而 ， 它 仍然 是 一 个 事实 的 陈述 ， 没 有 解 


“44°F 比 正常 冷 得 多 。” 这 就 是 信息 。 我 们 已 经 处 理 了 数据 点 ， 并 与 其 他 数据 点 组 合 以 确定 什么 是 “正常 ”， 以 及 该 值 与 
该 参考 点 相关 的 关系 。 


“44"F 是 寒冷 。 我 需要 我 的 外 套 。 ”我 们 将 信息 结合 在 一 起 ， 建 立 一 个 心理 模型 的 意义 ， 这 是 知识 。 当 然 ， 这 些 模型 都 是 
相对 的 一 一 阿拉 斯 加 州 的 某 个 人 可 能 会 考虑 ， 在 11 月 44°F 是 不 合 时 宜 的 温暖 。 





从 信息 的 深度 ， 我 们 可 以 回 滚 到 分 析 的 顶层 定义 (图 14-1) 。 虽 然 其 他 术语 如 “理解 ”和 “上 下 文 ”仍然 需要 引入 ， 但 是 
我 们 希望 现在 有 一 个 更 清楚 的 意义 一 一 分 析 是 什么 ， 至 少 在 概念 上 。 


分 析 = 将 数据 资产 转化 为 具有 苋 搜 力 的 观点 ， 
驱动 商业 决策 与 行为 


反馈 信息 
通过 数据 人 处理 ， 结 合 
上 上 下文， 理解 信息 含义 
理解 事物 的 根本 原因 
理解 原因 与 影响 


图 14-1 分 析 定 义 的 两 级 深度 探讨 结果 


考虑 到 新 的 理解 要 求 ， 我 们 来 看 看 分 析 师 可 以 访问 的 工具 集 。 我 们 并 不 是 指 像 Excel 或 R 这 类 的 软件 工具 ， 而 是 指 可 用 的 统计 
工具 和 可 以 执行 的 分 析 类 型 。 


14.2 分 析 的 类 型 


Jeffrey Leek 是 约翰 霍 普 金 斯 大 学 生物 统计 学 助理 教授 和 简单 统计 博客 的 编辑 。Jeffrey 认 为 有 六 种 类 型 的 分 析 ， 从 最 简单 到 
最 复杂 依次 为 : 


“ 描述 性 ; 


:探索 性 ; 
推理 ; 
-预测 ; 
“因果; 
“ 机 制 。 


我 们 将 讨论 前 五 个 。 最 后 一 个 “机 制 ”更 多 地 与 基础 科学 、 研 究 和 开发 以 及 术语 “ 建 模 ” (而 不 是 “分 析 ”) 相关 联 。 机 制 
建 模 和 分 析 意 味 着 对 系统 非常 深刻 的 理解 ， 它 来 自 于 以 一 种 可 控 的 方式 对 一 个 稳定 的 系统 的 学 习 ， 这 种 方法 来 自 于 多 年 的 经 验 
一 一 因此 这 种 联系 与 基础 科学 有 关 。 这 种 情况 不 会 发 生 在 大 多 数 企业 中 ， 但 也 有 一 些 例外 ， 例 如 制药 和 工程 领域 的 研发 部 门 。 
如 果 需 要 更 高 级 的 理论 ， 或 者 你 的 机 制 分 析 水 平 已 经 登峰造极 ， 那 你 可 能 不 需要 这 本 书 告诉 你 如 何 做 。 


我 们 将 介绍 六 种 典型 的 分 析 ， 它 们 都 有 着 同一 个 目的 : 进行 预测 。 


之 前 我 们 介绍 过 统计 分 析 的 类 型 ， 更 重要 的 是 ， 这 些 数 据 可 以 进行 多 层次 的 分 析 。 例 如 ， 可 以 使 用 探索 性 数据 分 析 来 准备 即 
席 查询 (分 析 级 别 2) 。 它 还 可 用 于 派生 警报 (分 析 级 别 4) 的 业务 逻辑 ， 例 如 ， 找 到 分 布 曲线 的 98% 位 置 ， 并 在 相关 指标 超过 
该 级 别 时 发 出 警报 。 我 们 可 以 将 分 析 级 别 视 为 使 用 一 种 或 多 种 类 型 的 统计 分 析 的 活动 ， 这 些 统计 分 析 遵 守 一 些 业务 规则 、 约 束 和 
输出 格式 要 求 。 


图 14-2 尝 试 显示 两 种 类 型 之 间 的 映射 关系 。 热 力图 显示 纵 轴 是 分 析 级 别 ， 横 轴 是 五 种 类 型 的 分 析 。 每 个 单元 格 中 的 级 别 表 
示 以 该 类 型 的 分 析 为 中 心 的 努力 或 时 间 量 的 粗略 估计 。 例 如 ， 标 准 报告 往往 使 用 描述 性 和 探索 性 分 析 ， 但 极 不 可 能 使 用 因果 模 
型 。 另 一 方面 ， 优 化 分 析 肯 定 也 会 基于 描述 性 分 析 和 探索 性 数据 分 析 ， 但 它们 的 主要 关注 点 是 预测 性 分 析 ， 可 能 涉及 因果 分 析 。 


(8 ) 优化 

(7 ) 长 期 预测 
(6 ) 短期 预测 
未 (5 ) 数据 分 析 
三 (4 ) 警报 
(3 ) 深入 查询 
(2 ) 即席 查询 

(1 ) 标准 报告 





描述 探索 推理 预测 因 采 
分 析 类 型 


图 14-2 ”分 析 级 别 和 分 析 类 型 之 间 的 粗略 映射 


我 们 应 该 澄清 一 点 ， 还 有 许多 其 他 类 型 的 定量 分 析 ， 如 生存 分 析 、 社 交 网 络 分 析 和 时 间 序 列 分 析 。 然 而 ， 每 一 种 分 析 都 与 特 
定 的 领域 或 数据 类 型 相关 ， 也 有 与 之 相关 的 特殊 分 析 工 具 和 方法 。 例 如 ， 在 时 间 序列 分 析 中 ， 我 们 可 以 计算 一 个 现象 的 周期 ( 即 
描述 性 分 析 ) ， 然 后 绘制 随时 间 变 化 的 变量 ( 即 EDA) ， 最 后 可 以 建 模 和 预测 未 来 的 值 (预测 分 析 ) 。 换 句 话说 ， 这 六 种 类 型 是 


分 析 的 原型 ， 也 有 更 加 逻辑 和 定性 的 分 析 类 型 。 例 如 ， 根 本 原因 分 析 ， 来 自 丰 田 和 六 西格玛 的 “5 whys 方 法 ”是 一 个 很 好 的 例 


. 变量 (Vatiable) : 随 着 空间 、 时 间或 样本 单位 变化 而 变化 的 量 ， 例 如 ，“ 变 量 v= 汽 车 的 速度 ”或 “性 别 是 一 个 分 类 变 


* 维度 (Dimension) : 这 也 是 一 个 可 变量 。 有 虽然“ 变量” 更 频繁 地 被 科学 家 和 程序 员 使 用 ， 但 维度 在 商务 智能 中 更 常见 。 
维度 是 用 于 对 事实 和 度量 进行 分 类 的 变 通常 是 分 类 或 时 间 的 ， 但 也 可 以 是 排名 、 评 级 或 整数 。 例 如 ， 我 们 可 能 希望 绘制 总 销 
信 额 (度量 ) 与 状态 〈 维 度 ) 或 年 份 〈 维 度 ) 的 关系 ， 或 者 绘制 计算 网 站 跳出 率 〈 度 量 ) 与 性 别 (维度 ) 的 关系 。 我 们 习惯 将 维 
度 绘制 在 x 轴 上 ， 度 量 绘制 在 y 轴 上 。 





-测量 (Measure) : 对 象 的 原始 值 的 测量 ， 例 如 长 度 ， 或 者 它 可 以 意味 着 标准 的 范围 单位 。 然 而 ， 在 商务 智能 中 ， 其 通常 
指 代 测量 数据 的 函数 (例如 BMI) 或 聚合 ， 例 如 min、sum、count 或 avetage。 可 以 将 它 视 为 对 事物 最 初始 的 测量 。 


度量 (Metric) : 两 个 或 更 多 测量 的 函数 (在 测量 方面 ) ， 或 者 仅仅 是 一 个 测量 〈 从 测量 函数 角度 ) 。 可 以 将 它 看 作 派 生 


的 测量 。 


* 统计 (Statistic) : 样本 的 一 些 属性 的 单个 度量 ， 例 如 ， 算 术 平 均值 =6.3。 它 是 一 个 函数 应 用 于 一 个 数据 集 ， 然 后 返回 一 
个 值 。 


“ 关键 绩效 指标 (Key Petformance Indicator，KPI) : 这 是 在 业务 环境 中 的 度量 ， 与 目标 和 某 些 基线 值 相关 联 。 也 就 是 说 ， 
它 显 示 了 相对 于 某 些 业务 目标 或 起 点 的 表现 。 


接 下 来 ， 我 们 讨论 五 种 分 析 原 型 。 
1. 描 述 性 分 析 


描述 性 分 析 是 最 简单 的 分 析 类 型 。 它 定量 摘 述 和 总 结 一 个 数据 集 。 重 要 的 是 ， 它 只 是 描述 数据 样本 的 特点 ， 并 不 试图 摘 述 关 
于 该 数据 天 联 的 任何 东西 。 它 通常 可 以 形成 显示 在 仪表 板 中 的 数据 ， 例 如 本 周 新 成 员 数 量 或 预订 年 份 。 


首先 讨论 单 变量 分 析 ， 意 思 是 描述 数据 的 单个 变量 ( 列 或 字段 ) 。 

最 简单 但 是 最 重要 的 测量 是 样本 大 小 ， 即 样本 中 的 数据 点 和 记录 的 数量 。 
位 置 指标 包括 : 

“ 平均 值 : 数据 的 算术 平均 值 ， 即 值 的 总 和 除 以 值 的 数量 。 


“ 几何 平均 : 简 而 言 之 ， 几 何平 均值 用 于 当 有 倍增 效应 时 计算 平均 值 ， 例 如 当 利 率 每 年 都 在 变化 时 ， 复 合 利率 和 时 间 有 关 。 
它 是 n 个 值 的 乘积 的 第 n 个 根 。 如 果 在 第 1 年 获得 8% 的 利息 ， 然 后 在 接 下 来 的 三 年 获得 6% 的 利息 ， 平 均 利 率 为 6.5%。 


* 调和 平均 值 : 值 的 倒数 的 算术 平均 值 ， 通 常用 于 平均 速率 。 例 如 ， 如 果 以 50 英 里 /小 时 的 速度 开车 到 达 商 店 ， 但 在 返回 时 
以 20 英 里 /小 时 的 速度 行驶 ， 平 均 速度 不 是 35 英 里 /小 时 ， 而 是 29 英 里 /小 时 。 


. 中 位 数 : 统计 学 上 指 处 于 中 间 位 置 的 一 个 数 。 


` 模式 : 最 频繁 出 现 的 值 。 


离散 测量 包括 : 

" 最 小 值 : 样本 的 最 小 值 。 

* Q1: 样本 中 四 分 之 一 低 于 该 值 ， 也 叫 下 铵 链 。 

` Q3: “样本 中 四 分 之 三 低 于 该 值 ， 也 叫 上 贸 链 。 

最 大 值 : 样本 的 最 大 值 。 

“ 四 分 位 距 : 中 央 50% 的 数据 ， 即 Q3 一 Q1。 

` 范围 : 最 大 值 减 去 最 小 值 。 

* 标准 偏差 : 方差 的 平方 根 ， 其 单位 与 样本 数据 相同 。 
. 方差: 标准 偏差 的 平方 ， 其 单位 是 数据 的 平方 。 


* 标准 错误 : 标准 偏差 除 以 样本 大 小 的 平方 根 。 对 一 个 总 体 多 次 抽样 ， 每 次 样本 大 小 都 为 n， 那 么 每 个 样本 都 有 自己 的 平均 
值 ， 这 些 平均 值 的 标准 差 叫 作 标 准 误差 。 


“ 基尼 系数 : 最初 是 为 了 量化 人 口 收入 不 平等 的 程度 ， 可 以 更 广泛 地 使 用 。 从 概念 上 讲 ， 最 容易 把 它 看 作 从 人 群 随 机 抽样 的 
两 个 人 之 间 的 平均 绝对 差 的 一 半 除 以 人 口 的 平均 收入 。 


形状 测量 包括 : 


* 偏 斜 : 对 分 布 的 不 对 称 性 进行 度量 。 如 果 频 数 的 高 峰 向 左 偏 移 ， 长 尾 向 右 侧 延 伸 ， 则 称 为 正 偏 态 分 布 ， 也 称 为 右 偏 态 分 
布 ; 相反 则 是 负 偏 态 分 布 ， 也 称 左 偏 态 分 布 。 在 推 特 的 用 户 中 ， 就 存在 着 明显 的 正 偏 态 分 布 。 活 跃 度 极 高 的 人 集中 在 5% 左 右 ， 
而 其 他 用 户 则 是 安静 的 长 尾 。 


* 峰 度 : 测量 分 布 峰 的 锐 度 。 高 度 的 峰 度 分 布 具有 明显 的 尖峰 与 长 尾 。 这 可 能 是 投资 的 一 个 重要 考虑 因素 ， 因 为 它 意 味 着 极 


端 波动 比 变量 是 正 态 分 布 时 更 常见 。 


我 们 还 将 分 布 类 型 作为 有 用 的 描述 性 统计 。 例 如 ， 正 态 (高 斯 ) 、 对 数 正 态 、 指 数 和 均匀 都 是 常见 的 。 分 布 的 类 型 和 形状 告 
诉 我 们 它 可 能 具有 的 特征 (例如 ， 它 可 能 产生 罕见 但 极端 的 异常 值 ) ， 有 时 可 以 为 生成 过 程 提供 线索 ， 并 且 通 常 指示 你 应 该 收集 
哪些 其 他 度量 。 例 如 ， 如 果 分 布 是 某 种 形式 的 定律 ， 例 如 Twitter 跟随 者 数量 的 分 布 ， 那 么 我 们 知道 应 该 计算 衰减 常数 ， 将 它 作 
为 一 个 重要 的 特征 度量 。 


当然 ， 并 不 是 所 有 的 变量 都 是 连续 的 。 例 如 ， 性 别 和 产品 组 都 是 分 类 的 。 因 此 ， 描 述 性 分 析 可 能 涉及 不 同类 别 或 列 联 表 的 相 
对 频率 表 ， 如 表 14-1 所 示 。 


表 14-1 按 区 域 和 性 别 刘 分 的 产品 销量 





这 个 层次 分 析 的 关键 是 分 析 师 知道 用 什么 切片 和 数据 分 组 。 例 如 ， 在 上 表 中 ， 为 什么 女性 在 西部 地 区 的 销售 比例 较 大 ? 
在 涉及 两 个 变量 时 ， 描 述 性 分 析 能 够 包含 管理 度 的 分 析 ， 例 如 计算 相关 系数 或 协 方差 。 


描述 性 统计 是 以 揭示 数据 分 布 特性 的 方式 汇总 并 表达 定量 数据 的 方法 ， 它 的 目的 是 以 数字 方式 描述 样品 的 关键 特征 。 它 可 以 
描述 总 数据 中 的 关键 数字 ， 也 可 以 描述 变量 之 间 的 关联 关系 或 交叉 天 系 。 


这 些 简单 的 度量 本 身 可 能 证 明 是 非常 有 价值 的 。 我 们 可 能 想 要 知道 并 跟踪 中 间 订 单 金额 或 最 长 持续 时 间 以 解决 客户 案例 。 这 
些 度量 可 能 有 足够 的 价值 来 驱动 标准 报告 、 即 席 查询 、 深 入 查询 或 警报 (分析 级 别 1 到 4) 。 这 能 提供 不 错 的 关于 数据 质量 的 洞 
察 报告 。 例 如 ， 如 果 射 击 游戏 网 站 上 玩家 的 最 大 年 龄 为 115 岁 ， 则 玩家 输入 错误 数据 或 出 生日 期 字段 设置 为 默认 日 期 1900 (或 者 
玩家 有 一 个 很 酷 的 奶奶 ) 简单 的 最 小 值 、 最 大 值 、 范 围 和 柱状 图 可 以 帮助 分 析 。 





总 之 ， 摘 述 性 分 析 通 常 是 第 一 步 ， 是 一 个 获得 数据 感知 的 机 会 ， 以 进行 更 深入 的 分 析 。 
2. 探 索性 分 析 
描述 性 分 析 是 非常 重要 的 第 一 步 。 但 有 一 个 问题 是 ， 具 有 不 同 分 布 、 形 状 和 性 质 的 不 同样 品 可 能 会 得 到 相同 的 数据 统计 。 


在 图 14-3 中 ， 两 个 样本 具有 相同 的 平均 值 100， 但 具有 非常 不 同 的 分 布 。 
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图 14-3 ” 双 峰 分 布 和 单 峰 分 布 ， 两 者 具有 相同 的 平均 值 100 


这 并 不 奇怪 ， 因 为 这 只 是 一 个 简单 的 单一 汇总 统计 : 单个 变量 的 平均 值 。 有 很 多 可 能 的 “解决 方案 ”或 样本 可 能 导致 相同 的 
统计 值 。 


然而 ,更 令 人 惊讶 的 是 ,假设 有 四 个 二 元 变量 样本 (2D) ， 变 量 x 和 样本 y 具 有 如 表 14-2 的 统计 描述 。 


表 14-2 


特征 值 


每 种 情况 下 的 样品 量 11 

每 种 情况 下 x 的 平均 值 9 

每 种 情况 下 x 的 样本 方差 11 

每 种 情况 下 y 的 平均 值 75 

每 种 情况 下 ?的 样本 方差 4.122 或 4.127 

每 种 情况 下 x 和 yy 之 间 的 相关 性 | 0.816 

每 种 情况 下 的 线性 回归 y=3.00+0.500x 
这 是 一 个 高 度 受 限 制 的 系统 。 这 四 个 样本 看 起 来 很 相似 ， 但 从 图 14-4 可 以 看 出 ， 这 种 描述 远 远 不 够 。 
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图 14-4 Anscombe 的 四 组 数据 。 这 四 个 样本 中 的 每 一 个 具有 相同 的 平均 x、 平 均 y、x 的 方差 、y 的 方差 、 相 关 性 和 回归 线 (至 少 两 
个 小 数位 ) 


注 : 参考 http://bit.ly/anscombes-quattet。 


这 就 是 统计 学 家 弗朗西斯 ' 安 斯 科 姆 (Francis Anscombe) 有 名 的 “Anscombe 的 四 组 数据 ”， 他 在 1973 年 设计 了 这 组 数 
据 。 在 那些 早期 的 统计 计算 中 ， 他 的 动机 是 反对 当时 的 统计 方法 和 统计 软件 应 用 教科 书 的 理论 : 


1) 数值 计算 是 准确 的 ， 但 图 表 粗 糙 。 

2) 对 于 任何 特定 类 型 的 统计 数据 ， 只 有 一 组 计算 构成 正确 的 统计 分 析 。 
3) 执行 复杂 的 计算 是 良性 的 ， 而 查看 数据 是 作弊 。 

Anscombe 说 过 : 


大 多 数 统计 计算 都 基于 数据 行为 的 假设 。 这 些 假 设 可 能 是 假 的 ， 然 后 计算 可 能 会 误导 。 我 们 应 该 总 是 试 着 检查 假设 是 否 合理 
正确 ， 如 果 它 们 错 了 ， 我 们 应 该 能 够 以 某 种 方式 感知 它们 是 错 的 。 图 表 对 于 这 些 假设 的 检查 非常 有 价值 。 


使 用 图 形 来 检查 和 可 视 化 数据 称 为 探索 性 数据 分 析 (EDA) ， 由 John Tukey 倡 导 和 推广 ， 他 在 1977 年 写 的 书 《 探 索性 数据 
分 析 》 影 响 力 很 大 。 如 果 运 用 恰当 ， 图 表 可 以 帮助 我 们 看 到 一 个 数据 集 的 更 多 信息 ， 并 帮助 我 们 发 现 明显 或 不 寻常 的 模式 一 一 
我 们 的 大 脑 天 生 擅 长 干 这 个 ， 这 通常 是 洞察 开始 的 地 方 。 为 什么 在 那 条 曲线 上 有 扭 结 ”我 们 在 什么 时 候 看 到 营销 支出 的 回报 减 


少 ? 


EDA 人 允许 我 们 挑战 或 确认 对 数据 的 假设 。 这 就 是 为 什么 我 们 说 R 语 言 的 pairs 命 令 是 关于 数据 质量 的 。 我 们 经 常 对 不 清楚 的 数 
据 表 现 有 很 高 的 期 望 ， 例 如 离 群 值 、 丢 失 的 数据 和 其 他 异常 ， 甚 至 会 高 于 对 那些 已 经 清洗 过 的 数据 的 期 望 。 





当 研 究 和 获得 更 多 的 领域 经 验 时 ， 我 们 依靠 直觉 来 判断 什么 因素 和 可 能 的 关系 起 作用 。 探 索性 分 析 具 有 广泛 地 查看 数据 点 和 
关系 的 方法 ， 为 我 们 提供 了 研究 系统 的 一 系列 透视 方法 。 反 过 来 ， 如 果 我 们 了 解 哪些 变量 可 以 控制 ， 或 者 在 特定 方向 上 必须 在 系 
统 中 使 用 哪些 杠杆 来 驱动 指标 〈 例 如 收入 或 转化 ) ， 有 助 于 我 们 提出 可 能 发 生 的 新 假设 。 探 索性 分 析 还 可 以 弥补 我 们 的 知识 中 的 
差距 ， 并 帮助 确定 哪些 实验 可 能 有 意义 ， 以 填补 这 些 空白 。 


对 于 单 变量 数据 ， 数 据 是 连续 的 实数) 或 离散 的 (整数) 。 常 见 的 图 形 类 型 包括 茎 叶 图 (图 14-5) 、 直 方 图 (图 14-6) 
和 箱 形 图 (图 14-7) 。 
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图 14-6 ”直方 图 


如 果 直 方 图 被 缩放 以 使 得 其 面积 等 于 1， 则 这 是 概率 密度 函数 (PDF) 。 另 一 个 查看 相同 数据 的 有 用 方法 是 绘制 累积 概率 ， 


No 


图 14-8、 图 14-9 和 图 14-10 显 示 了 单 变量 分 类 变量 的 常见 图 形 类 型 。 
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图 14-7 箱 形 图 
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图 14-8 ”人 饼 图 或 圆 环 图 
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图 14-9 ”条 形 图 
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堵车 照顾 孩子 公共 交通 i 睡 过 头 ”紧急 事件 
图 14-10” 帕 累 托 图 一 一 晚点 原因 分 析 
对 于 两 个 变量 ， 有 一 大 类 通用 类 型 ， 如 表 14-3 所 示 。 


表 14-3 ”图表 分 类 


分 类 
e 赂 蛛 /雷达 图 
分 类 e 堆 秋 条 形 图 
e 漏斗 图 
线形 图 e 箱 形 图 
极 坐标 图 e 面积 医 
竺 或 刻 

连续 或 离散 地 图 和 Voronoi 图 e 范围 图 
密度 图 e 表格 图 


轮廓 图 





为 了 同时 检查 三 个 变量 ， 需 要 有 一 个 整体 的 图 形 类 型 。 有 些 是 更 传统 和 更 常见 的 (例如 气泡 图 和 3D 散 射 图 ) ， 而 其 他 图 形 
具有 专门 的 目的 。 


当 一 个 变量 是 时 间 (例如 年 ) 或 分 类 时 ， 另 一 种 方法 是 使 用 “小 倍数 ”， 其 中 创建 一 维 或 二 维 图 的 格子 (图 14-11) 。 
过 注意 


不 要 将 图 表 限 制 为 一 种 或 两 种 类 型 ， 因 为 所 有 这 些 图表 类 型 的 存在 都 是 有 原因 的 。 研 究 它 们 的 优势 和 弱点 ， 并 使 用 任何 类 型 
来 显示 有 趣 的 信号 、 趋 势 或 模式 ， 以 达到 效果 。 


在 适当 的 情况 下 ,使 用 一 条 命令 (如 paits) 自动 生成 不 同 组 合 变量 的 图 形 ， 我 们 可 以 快速 扫描 以 查找 值得 进行 更 多 调查 的 有 
趣 特 征 或 异常 。 
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图 14-11 小 倍数 的 示例 (来自 http://bit.ly/small-mult) 


3. 推 理 分 析 


描述 性 分 析 和 探索 性 分 析 都 属于 描述 性 统计 ， 用 于 描述 数据 样本 的 属性 。 我 们 现在 切换 到 另 一 个 主要 分 支 一 一 统计 推断 。 
顾名思义 ， 目 标 是 推断 一 些 信息 ， 可 能 是 参数 、 分 布 或 关系 。 它 还 设置 了 假设 测试 的 阶段 ， 我 们 需要 设计 和 运行 实验 来 测试 和 分 
析 对 底层 机 制 的 理解 。 


因为 本 书 不 是 一 本 统计 教科 书 ， 所 以 此 处 将 只 粗略 概述 可 以 提出 的 问题 类 型 、 可 能 产生 的 见解 类 别 ， 以 及 通过 使 用 推理 分 析 
可 以 获得 的 附加 价值 。 


为 什么 我 们 需要 推理 ? 因为 数据 收集 太 贵 、 不 切实 际 ， 甚 至 不 可 能 获得 所 有 数据 ， 我 们 通常 必须 从 样本 中 推断 关于 群体 的 度 
量 。 考 虑 一 个 总 统 选举 的 调查 : 让 所 有 1.25 亿 选民 投票 是 不 切实 际 的 。 相 反 ， 我 们 想 要 得 到 一 个 很 好 的 代表 性 样本 ， 以 确保 推断 
的 准确 性 。 与 之 对 应 ， 如 果 我 们 对 制造 过 程 进行 质量 检查 ， 并 且 进 行 破坏 性 测试 ， 那 么 也 显然 不 可 能 测试 所 有 产品 。 


推理 分 析 的 另 一 个 原因 是 ， 提 供 一 个 评估 差异 和 结果 的 客观 框架 。 假 设 我 们 策划 了 一 个 惊喜 和 喜悦 的 推广 活动 ， 选 择 1000 
个 符合 常见 标准 的 客户 ， 例 如 他 们 必须 在 过 去 一 年 内 完成 两 次 购买 ， 并 且 是 忠诚 度 计 划 的 成 员 。 我 们 向 他 们 中 的 一 半 (测试 组 ) 
送 一 个 惊喜 礼物 ,说 “我们 爱 客户 ， 这 是 一 份 小 小 的 谢 礼 ”， 另 一 半 (控制 组 ) 什么 也 没有 ， 然 后 评估 未 来 三 个 月 的 购买 次 数 。 
描述 性 分 析 显 示 ， 测 试 组 平均 每 月 多 花费 3.36 美 元 。 这 意味 着 什么 ? 听 起 来 不 错 ， 但 这 个 结论 有 多 可 靠 ? 如 果 我 们 再 次 运行 实 


验 ， 可 能 会 看 到 类 似 的 值 ， 或 者 这 种 差异 是 偶然 的 吗 ? 也 许 是 某 个 单一 客户 购买 一 个 大 订单 造成 的 ? 统计 推断 允许 我 们 提供 一 个 
估计 的 可 能 性 ， 从 中 我 们 看 到 的 差异 可 能 只 是 特例 ， 因 为 有 可 能 基本 的 购买 行为 没有 真正 的 差异 。 


想象 一 下 把 结果 交 给 决策 者 。 仪 使 用 描述 性 分 析 ， 我 们 只 能 说 明 结果 : “我 们 发 现 这 个 差异 为 每 月 3.36 美 元 ， 这 似乎 是 我 们 
可 能 期 望 的 正确 方向 。” 但 是 通过 推理 分 析 ， 我 们 能 够 发 现 更 深入 的 情况 : “我 们 发 现 这 个 差异 为 每 月 3.36 美 元 ， 如 果 没 有 真正 
的 潜在 差异 ， 我 们 将 看 到 的 结果 只 有 2.3% 的 可 能 性 支持 这 是 一 个 真正 的 效果 。” 或 者 相反 ，“ 我 们 看 到 了 这 种 差异 ,但 有 27% 
的 可 能 性 这 是 一 个 机 会 效应 。 很 可 能 ,该 活动 没有 真正 的 影响 ， 至 少 在 这 个 指标 上 。” 从 分 析 师 和 决策 者 的 角度 来 看 ， 推 理 分 析 
为 组 织 提供 了 更 大 的 价值 和 影响 。 


可 以 用 统计 推断 回答 的 问题 类 型 包括 (但 不 限于 ) : 


* 标准 误差 、 置 信 区 间 和 误差 范围 : 这 个 特定 的 样本 的 平均 值 或 样本 比例 可 信 度 有 多 少 ? 如 果 重 复 实验 ， 有 多 少 可 能 会 因为 


机 会 而 变化 ? 
:单个 样品 的 预期 平均 值 : 这 个 样本 的 平均 值 是 否 与 预期 值 有 显著 差异 ? 


“ 平均 值 与 两 个 样本 的 差异 : 这 两 个 样本 的 平均 值 是 否 显 著 不 同 ? 例如 ， 如 果 零 假设 是 真 的 ， 两 个 样本 的 总 体 平均 值 没 有 差 
别 ， 那 么 我 们 将 观察 到 平均 值 差异 的 可 能 性 更 大 。 


“样本 大 小 计算 和 功率 分 析 : 考虑 到 目前 对 过 程 的 了 解 ， 为 实现 对 数据 的 一 定 程度 的 可 信 ， 我 们 需要 的 最 小 样本 量 是 什么 ? 
这 些 类 型 的 统计 工具 对 于 规划 A/B 测 试 很 重要 。 


分布: 这 个 样本 中 值 的 分 布 是否 与 正 态 ( 钟 形 ) 分 布 一 致 ”这 两 个 样本 可 能 具有 相同 的 底层 分 布 吗 ? 


* 回归 : 假设 进行 了 一 个 设计 良好 的 实验 ， 其 中 我 们 系统 地 改变 一 个 (独立 ) 变量 ， 同 时 控制 尽 可 能 多 的 所 有 其 他 因素 ， 然 
后 拟 合 回 归 (趋势 ) 线 。 这 条 趋势 线 有 多 少 可 信和 度 ? 如 果 重 复 实验 多 次 ， 它 可 能 有 多 大 的 变化 (在 渐变 和 截 距 ) ? 


* 良好 的 配合 和 关联 : 给 定 一 个 分 类 变量 (例如 产品 类 别 ) ， 频 率 或 计数 (例如 购买 ) 是 否 匹 配 一 组 预期 的 相对 频率 ? 两 个 
变量 之 间 是 否 存 在 关系 ， 其 中 有 一 个 是 绝对 固定 的 吗 ? 


这 是 一 个 非常 简短 的 概述 ， 希 望 大 家 可 以 看 到 一 套 统计 推断 提供 了 一 些 工具 的 潜在 价值 。 它 允许 人 们 更 客观 地 设计 实验 和 分 
析 数 据 ， 并 期 望 减少 偶然 效应 。 


预测 是 非常 困难 的 ， 特 别 是 关于 未 来 。 
一 一 尼 尔 斯 . 玻 尔 


预测 分 析 建 立 在 推理 分 析 之 上 ， 目 标 是 学 习 来 自 现 有 训练 数据 集 的 变量 之 间 的 关系 ， 并 开发 可 以 预测 新 的 、 不 完全 的 或 未 来 
的 数据 点 的 属性 值 的 统计 模型 。 


这 听 起 来 像 焉 毒 魔法 。 毕 竟 ， 我 们 不 知道 下 一 次 会 毁坏 旧金山 的 大 地 震 何 时 来 到 (“ 大 的 ”是 否 已 经 过 期 ) ， 下 个 季节 赂 风 
发 生 于 何 时 何 地 ， 以 及 周一 早上 Apple 股 票 的 价格 (如 果 我 能 做 到 的 话 ， 我 不 会 写 这 本 书 ) 。 的 确 ， 我 们 无 法 预测 关于 这 些 极 
端 、 复 杂 或 混沌 现象 的 特征 一 一 “ 黑 天 鹅 ”。 然 而 ， 商 业 和 其 他 领域 的 许多 方面 具有 足够 的 信号 ， 因 此 预测 分 析 可 以 很 好 地 工 
作 。 例 如 ，Nate Silver 能 够 预测 2008 年 美国 总 统 选举 中 49 州 的 所 有 参议 院 竞 选 的 获胜 者 。 


在 零售 业 ， 已 经 形成 了 较为 完善 的 预测 模式 。 图 14-12 (上 面 的 曲线 ) 显示 了 一 个 非常 清晰 和 可 预测 的 太阳 镜 年 销售 模 
式 ，6 月 至 7 月 达到 峰值 ，11 月 和 1 月 有 低谷 (可 能 12 月 份 的 小 峰值 是 假日 销售 ) 。 类 似 的 模式 是 预测 手套 销售 与 每 月 的 高 峰 ， 只 


时 间 上 差 了 6 个 月 。 然 后 ， 可 以 使 用 预测 分 析 指 导 生 成 预测 
造 或 购买 商品 、 


， 即 时 间 序 列 中 的 未 来 预测 
制造 多 少 或 购买 多 少 、 何 时 将 其 运送 到 商店 等 


又 可 以 用 于 制订 计划 ， 包 括 何 时 制 
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图 14-12 ” ”Google 趋势 显示 了 从 2004~2014 年 的 太阳 镜 (上 ) 和 手套 (下 ) 的 可 预测 的 季节 性 销售 模式 ， 并 预测 了 2015 年 的 销售 
况 
除了 时 间 序 列 ， 预 测 分 析 还 可 以 预测 一 个 对 象 可 能 沙 入 哪个 类 别 。 例 如 ， 给 定 一 个 人 的 工资 信息 、 信 用 卡 购 买 历史 和 支付 
(或 不 支付 ) 账单 的 历史 ， 我 们 可 以 预测 其 信用 风险 。 或 者 ， 给 定 一 组 包含 短 电影 评论 的 推 文 ， 其 中 每 一 条 都 已 经 被 为 标记 为 正 
(“我 喜欢 这 部 电影 ”) 或 负 ( “这 部 电影 逊 紫 了 ”) ， 我 们 可 以 开发 模型 来 预测 新 的 推 文 的 情感 是 积极 还 是 消极 ， 如 “电影 的 
特殊 效果 真 棒 ” ， 而 这 个 模型 是 没有 训练 的 。 
| 分 析 能 够 应 用 到 很 多 方面 ， 并 产生 良好 的 景 


多 响 。 以 下 是 几 个 例子 。 
(1) 服务 本 身 的 预测 分 析 


约会 应 用 程序 : 良好 建议 可 以 导致 更 大 的 客户 满 


意 度 。 


* 库存 预测 软件 : 通过 跟踪 股 


股票 人 


票 价 格 的 变动 来 确定 识别 模式 ， 算 法 可 以 尝 
(2) 辅助 服务 的 预测 分 析 


“ 垃圾 邮件 过 滤器 : 了 


试 低 买 高 卖 和 最 大 化 回报 。 


识别 和 过 滤 垃 圾 邮件 ， 没 有 垃圾 邮件 可 以 收获 干 


净 的 收 件 箱 和 更 快乐 的 用 户 。 
内 容 应 用 程序 : 良好 的 观看 建议 (Netflix) 带 来 更 高 的 留存 率 和 更 低 的 流失 
社交 网 络 : LinkedIn 的 “1 


处 可 能 知道 


的 人 ”增加 了 用 户 的 网 络 效 应 ， 并 给 用 户 提供 更 大 的 价值 和 服务 
(3) 可 以 带 来 更 高 用 户 转 化 量 的 预测 分 析 

. 交叉 销售 和 加 售 : 即使 简单 的 基于 关联 的 建议 ， 如 “购买 《冰雪 奇 缘 》DVD 的 客户 也 买 了 《小 美人 鱼 》 
也 可 能 导致 更 高 的 销售 额 ， 并 使 节日 购物 更 快 、 更 容易 。 


(亚马逊 ) ， 
广告 和 优惠 券 : 通过 了 解 一 个 人 的 历史 消 
患 券 。 


， 预 测 个 人 的 状态 、 兴 趣 或 意图 ， 可 以 驱动 更 相关 的 展示 广告 或 有 效 的 超市 优 
(4) 能 够 更 好 推动 战略 运行 的 预测 分 析 


: 银行 审批 : 预测 谁 将 违约 抵押 贷款 并 将 这 些 洞 察 纳 入 审批 流程 可 以 降低 风险 。 
- 预测 监管 : 预测 犯罪 热点 ， 以 及 何 时 和 在 哪里 派 警察 巡 还 。 


需求 预测 : 预测 未 来 的 网 站 或 服务 流量 (例如 在 超级 碗 期 间 发 送 的 推 文 ) ， 可 以 主动 提前 增加 服务 器 ， 以 满足 需求 并 保持 


服务 运行 (更 少 的 宕 机 ) 。 


` 政治 运动 : 基于 新 数据 预测 个 人 选民 的 意向 (投票 /不 投票 ， 民 主 党 /共和 党 /未 定 ) ， 并 引导 更 精细 和 更 有 针对 性 的 努力 
(媒体 、 呼 吁 运动 捐款 和 上 门 宣传 ) ， 将 对 总 统 竞选 帮助 极 大 。 


这 只 是 一 个 小 样本 ， 有 关 预 测 分 析 的 完整 概述 和 更 全 面 的 列表 ， 请 参见 John Siegel 的 书 《Predictive Analytics》 (John 
Wiley&Sons) ， 尤 其 是 表 1-9。 


那么 ， 我 们 如 何 执行 预测 分 析 ” 有 一 整套 方法 和 工具 。 最 简单 的 模型 用 来 预测 明天 的 天 气 会 像 今天 一 样 。 对 于 变化 缓慢 的 现 
象 这 样 预测 是 可 以 的 ， 如 南 加 州 的 天 气 ， 但 是 在 易 变 系统 里 是 不 可 以 的 ， 如 股票 价格 。 回 归 是 最 常用 的 工具 ， 其 中 有 许多 具体 回 
归 方法 (lasso、ridge、robust 等 ) 来 处 理 数据 的 不 同 特性 。 逻 辑 回 归 用 于 特殊 场景 ， 可 以 预测 类 别 。 例 如 ， 二 圾 邮件 / 非 垃圾 
邮件 过 去 主要 是 用 朴素 贝 叶 斯 预测 器 预测 的 ， 但 是 现在 ,逻辑 回归 更 常见 。 当 然 还 有 其 他 技术 和 术语 ， 例 如 机 器 学 习 (包括 神经 
网 络 ) 、 基 于 树 的 方法 (包括 分 类 和 回归 树 ) 、 随 机 和 森林、 支持 向 量 机 以 及 k- 最 近邻 等 。 


虽然 预测 分 析 很 强大 ， 但 操作 起 来 也 有 一 定 困难 。 最 困难 的 步骤 之 一 是 获得 一 个 好 的 、 干 净 的 数据 集 。 当 设计 分 类 器 时 ， 这 
通常 意味 着 手动 构造 数据 集 库 ， 例 如 ， 将 一 组 推 文 标记 为 肯定 或 否定 ， 这 可 能 是 特别 耗费 工作 量 的 。 当 我 们 有 了 一 个 好 的 数据 集 
后 ， 实 现 一 个 基本 的 模型 可 能 就 只 需要 几 行 代码 。 然 而 ， 为 了 获得 良好 的 模型 ， 通 常 需要 更 多 的 努力 和 迭代 以 及 称 为 特征 工程 的 
过 程 。 特 征 是 模型 的 输入 ， 可 以 涉及 我 们 收集 的 基本 原始 数据 (例如 订单 金额 ) 、 简 单 的 派生 变量 (例如 ，“ 一 个 周末 的 订单 日 
期 ? 是/ 否 ”) ， 以 及 更 复杂 的 抽象 特征 (例如 ， 两 部 电影 之 间 的 “相似 性 分 数 ”) 等 。 思 考 特 征 依赖 于 领域 知识 。 


最 后 ， 预 测 分 析 不 一 定 需 要 大 量 的 数据 。Nate Silver 的 2008 年 总 统 预测 输入 数据 只 有 188000 条 ( 见 Oliver Grisel 的 演示 文 
稿 的 证 据 ， 以 及 预测 分 析 的 一 个 很 好 的 简要 概述 ) 。 最 重要 的 是 ， 它 涉及 大 量 不 同 的 来 源 和 民意 调查 ， 每 一 个 都 是 错误 的 和 有 偏 
见 的 ,但 总 的 来 说 ， 它 们 的 平均 值 接近 现实 。 很 明显 ， 至 少 对 于 某 些 类 型 的 问题 ， 有 大 量 的 数据 可 以 让 我 们 用 简单 的 模型 逃避 。 


总 而 言 之 ， 预 测 分 析 在 数据 驱动 的 组 织 库 里 是 一 个 强大 的 武器 。 
5. 因 果 分 析 


我 们 可 能 已 经 听 说 过 这 些 道理 : 相关 并 不 意味 着 因果 关系 。 如 果 我 们 收集 一 些 数据 ， 然 后 做 一 些 EDA 来 寻找 变量 之 间 有 趣 的 
关系 ， 可 能 会 找到 一 些 东 西 。 即 使 两 个 变量 之 间 存 在 非常 强 的 相关 性 ， 也 不 意味 着 存在 因果 关系 。 例 如 ，HDL 胆 固 醇 与 心脏 疾病 
的 发 生 率 负 相 关 ， 这 种 “好 ”胆固醇 越 多 越 好 ， 但 增加 HDL 药物 不 会 降低 心脏 病 ， 为 什么 ”因为 HDL 是 健康 心脏 的 副产品 ， 而 不 
是 健康 的 原因 。 这 种 事后 分 析 具 有 很 大 的 局 限 性 。 如 果真 的 想 了 解 一 个 系统 ， 并 确定 有 什么 因素 可 以 影响 变量 和 指标 ， 需 要 开发 
一 个 因果 模型 。 


正如 在 早期 的 例子 中 ， 想 法 是 运行 一 个 或 一 系列 的 实验 ， 在 这 些 实验 中 ， 我 们 尽 可 能 进行 控制 ， 最 好 每 次 只 改变 一 个 小 因 
素 。 因 此 ， 我 们 可 以 在 电子 邮件 广告 系列 中 为 客户 运行 实验 ， 测 试 电 子 邮 件 主题 。 如 果 一 切 都 是 一 样 的 〈 相 同 的 电子 邮件 内 容 ， 
并 且 同 时 发 送 等 ) ， 测 试 人 群 之 间 唯 一 不 同 的 只 有 主题 ， 最 后 看 到 一 个 显著 更 高 的 邮件 打开 率 ， 那 么 我 们 就 有 了 强 有 力 的 证 据 ， 





可 以 断定 较 高 的 邮件 打开 率 是 由 于 该 主题 的 影响 一 一 主题 是 因果 因素 。 
这 个 实验 有 点 局 限 ， 因 为 虽然 它 提供 了 主题 影响 的 良好 证 据 ， 但 依然 不 清楚 是 哪个 词 的 短语 与 客户 共鸣 。 为 此 ， 我 们 需要 运 


行 更 多 的 实验 。 来 看 一 个 更 加 量化 的 例子 : 发 送 电子 邮件 的 时 间 可 以 对 邮件 打开 率 产 生 重 大 影响 。 为 此 ， 我 们 可 以 进行 多 个 受 控 
实验 (在 上 午 8: 00 发 送 批 次 ， 在 上 午 9: 00 发 送 批 次 ， 在 上 午 10: 00 发 送 批 次 等 ) ， 并 检查 电子 邮件 发 送 时 间 如 何 影响 打开 


率 。 如 果 在 上 午 8: 30 发 送 电子 邮件 ， 我 们 将 能 够 预测 (插值 ) 打开 率 是 多 少 。 
我 们 能 做 什么 ? 


分 析 师 : 工 欲 善 其 事 必 先 利 其 器 ， 并 且 需 要 准备 更 多 的 武器 工具 。 这 样 ， 我 们 才能 成 为 一 个 更 有 效 和 更 有 价值 的 分 析 师 ， 工 
具 是 对 自己 职业 生涯 的 投资 。 评 佑 自己 当前 使 用 的 统计 和 可 视 化 技能 ， 然 后 思考 如 何 改进 。 例 如 ， 学 习 R 能 使 自己 更 快速 地 以 可 
重 现 的 方式 做 EDA 吗 ”额外 的 、 更 高 级 别 的 分 析 方 法 是 否 会 为 自己 的 项 目 提供 更 多 的 洞察 和 影响 ”学 会 这 种 技能 需要 什么 ? 


管理 人 员 : 留意 额外 的 分 析 类 型 可 能 为 组 织 提供 更 好 的 洞察 和 影响 的 情况 。 如 果 缺 货 是 供应 链 中 的 一 个 问题 ， 预 测 模型 会 
帮助 吗 ” 我 们 能 做 更 多 的 实验 来 审核 制度 知识 吗 ” 推 动 分 析 师 发 展 技能 ， 并 公开 支持 培训 、 指 导 来 提升 他 们 的 技能 并 增强 组 织 分 
析 能 力 。 让 分 析 师 尝试 其 他 软件 工具 ， 这 可 能 提供 新 的 类 型 的 洞察 或 让 他 们 更 快速 和 容易 地 做 自己 的 工作 。 


这 样 的 实验 使 我 们 对 用 于 预测 的 系统 的 因果 有 更 深入 的 理解 ， 并 且 可 以 帮助 计划 活动 和 其 他 改变 ， 以 增强 人 们 正 试图 驱动 的 
指标 。 这 些 实验 还 能 形成 可 用 于 优化 系统 的 仿真 模型 的 基础 ， 例 如 ， 可 以 模拟 供应 链 ， 并 研究 不 同 补 货 触 发 器 和 规则 如 何 影响 库 
人 存 出 货 、 总 运费 和 仓储 成 本 。 


在 一 个 企业 中 ， 并 不 是 所 有 的 分 析 师 和 高 级 经 理 都 会 对 这 些 分 析 和 建 模 感 兴趣 。 它 们 的 目标 是 驱动 核心 指标 (例如 电子 邮件 
营 收 率 ) ， 以 转换 指标 和 最 终 收 入 。 因 此 至 关 重 要 的 是 ， 这 些 指标 是 正确 的 指标 ， 并 且 设 计 良 好 。 如 果 没 有 ， 那 么 我 们 可 以 优化 
错误 的 事情 。 


第 15 草 数据 探索 


15.1 概要 


在 上 一 章 ， 我 们 介绍 了 数据 分 析 的 六 种 类 型 ， 除 了 探索 性 分 析 之 外 ， 其 他 五 种 分 析 的 目的 性 都 更 加 明确 ， 即 为 了 挖掘 一 定 的 
关系 而 对 相关 数据 进行 分 析 。 但 在 大 数据 时 代 ， 当 面 对 多 因素 时 ， 我 们 很 难 直接 知晓 不 同 因素 之 间 可 能 存在 的 关系 ， 这 个 时 候 ， 
对 数据 进行 探索 就 至 天 重要 。 


“数据 ”一 词 源 于 拉丁 语 dare， 意 思 是 “给 定 的 东西 ”， 是 关于 主体 的 观察 或 事实 。 数 据 挖掘 有 助 于 破译 数据 中 的 隐藏 天 
系 。 在 使 用 统计 、 机 器 学 习 和 算法 技术 进行 任何 高 级 数据 分 析 之 前 ， 必 须 进行 基本 数据 探索 以 研究 数据 的 主要 特征 。 数 据 探索 帮 
助 我 们 更 好 地 了 解数 据 ， 也 可 以 为 高 级 分 析 方 法 准备 数据 ， 有 时 从 数据 中 获得 洞察 力 比 使 用 高 级 分 析 技 术 更 快 。 


数据 探索 也 称 为 探索 性 数据 分 析 (EDA) ， 它 提供 了 一 组 简单 的 工具 ， 以 获得 对 数据 的 一 些 基 本 了 解 。 数 据 探索 在 掌握 数据 
的 结构 、 值 的 分 布 、 数 据 集中 极端 值 和 相互 天 系 的 存在 方面 是 非常 强大 的 。 数 据 探索 为 数据 统计 和 数据 挖掘 处 理 提供 指导 。 数 据 
探索 工具 是 各 种 标准 数据 分 析 软 件 的 一 部 分 ， 从 无 处 不 在 的 Microsoft Excel 到 高 级 数据 挖掘 软件 (如 R、RapidMiner、SAS、 
IBM SPSS 等 ) 。 我 们 通常 可 以 用 简单 的 数据 透视 表 函 数 (如 平均 值 和 偏差 ) 以 及 趋势 图 、 表 格 、 柱 状 图 和 散 点 图 做 日 常 业务 分 
析 。 


在 数据 探索 时 ， 常 用 的 两 个 工具 是 描述 性 统计 和 数据 可 视 化 。 描 述 性 统计 是 将 数据 集 的 关键 特征 压缩 成 简单 数字 度量 的 过 
程 ， 使 用 的 一 些 常用 度量 是 平均 值 、 标 准 偏差 和 相关 性 。 可 视 化 是 将 数据 或 其 部 分 投影 到 多 维 空间 或 抽象 图 像 中 的 过 程 。 在 数据 
挖掘 中 经 常 混合 使 用 描述 性 统计 和 数据 可 视 化 两 种 技术 。 本 章 介绍 探索 和 分 析 数 据 集 的 路 线 图 。 结 构 化 数据 探索 的 过 程 揭示 了 有 
关 数 据 的 大 量 信息 ， 是 数据 挖掘 的 第 一 步 。 


第 15 章 ”数据 探索 


15.1 概要 


在 上 一 章 ， 我 们 介绍 了 数据 分 析 的 六 种 类 型 ， 除 了 探索 性 分 析 之 外 ， 其 他 五 种 分 析 的 目的 性 都 更 加 明确 ， 即 为 了 挖掘 一 定 的 
关系 而 对 相关 数据 进行 分 析 。 但 在 大 数据 时 代 ， 当 面 对 多 因素 时 ， 我 们 很 难 直接 知晓 不 同 因素 之 间 可 能 存在 的 天 系 ， 这 个 时 候 ， 
对 数据 进行 探索 就 至 天 重要 。 


“数据 ”一 词 源 于 拉丁 语 dare， 意 思 是 “给 定 的 东西 ”， 是 关于 主体 的 观察 或 事实 。 数 据 挖掘 有 助 于 破译 数据 中 的 隐藏 天 
系 。 在 使 用 统计 、 机 器 学 习 和 算法 技术 进行 任何 高 级 数据 分 析 之 前 ， 必 须 进行 基本 数据 探索 以 研究 数据 的 主要 特征 。 数 据 探索 帮 
助 我 们 更 好 地 了 解数 据 ， 也 可 以 为 高 级 分 析 方 法 准备 数据 ， 有 时 从 数据 中 获得 洞察 力 比 使 用 高 级 分 析 技术 更 快 。 


数据 探索 也 称 为 探索 性 数据 分 析 (EDA) ， 它 提供 了 一 组 简单 的 工具 ， 以 获得 对 数据 的 一 些 基 本 了 解 。 数 据 探索 在 掌握 数据 
的 结构 、 值 的 分 布 、 数 据 集中 极端 值 和 相互 天 系 的 存在 方面 是 非常 强大 的 。 数 据 探索 为 数据 统计 和 数据 挖掘 处 理 提供 指导 。 数 据 
探索 工具 是 各 种 标准 数据 分 析 软 件 的 一 部 分 ， 从 无 处 不 在 的 Microsoft Excel 到 | 高 级 数据 挖掘 软件 (如 R、RapidMiner、SAS、 
IBM SPSS 等 ) 。 我 们 通常 可 以 用 简单 的 数据 透视 表 函 数 (如 平均 值 和 偏差 ) 以 及 趋势 图 、 表 格 、 柱 状 图 和 散 点 图 做 日 常 业务 分 
析 。 


在 数据 探索 时 ， 常 用 的 两 个 工具 是 描述 性 统计 和 数据 可 视 化 。 描 述 性 统计 是 将 数据 集 的 关键 特征 压缩 成 简单 数字 度量 的 过 
程 ， 使 用 的 一 些 常用 度量 是 平均 值 、 标 准 偏差 和 相关 性 。 可 视 化 是 将 数据 或 其 部 分 投影 到 多 维 空间 或 抽象 图 像 中 的 过 程 。 在 数据 
挖掘 中 经 常 混合 使 用 描述 性 统计 和 数据 可 视 化 两 种 技术 。 本 章 介绍 探索 和 分 析 数 据 集 的 路 线 图 。 结 构 化 数据 探索 的 过 程 揭示 了 有 
关 数 据 的 大 量 信息 ， 是 数据 挖掘 的 第 一 步 。 


15.2 ”数据 探索 的 目标 


在 数据 挖掘 过 程 中 ， 有 许多 不 同 的 步骤 可 以 利用 数据 探索 ， 包 括 预 处 理 或 数据 准备 ， 建 模 以 及 建 模 结果 的 分 析 。 


1) 数据 理解 : 通过 初步 分 析 ， 数 据 探 索 提 供 了 数据 集中 每 个 属性 的 高 级 概述 以 及 属性 之 间 的 关系 。 数 据 探 索 有 助 于 回答 很 
多 问题 ， 例 如 属性 中 的 典型 值 、 一 般 值 与 典型 值 的 差异 有 多 大 ， 或 者 数据 集中 是 有 异常 值 。 


2) 数据 准备 : 在 应 用 数据 挖掘 算法 之 前 ， 我 们 需要 准备 数据 集 以 处 理 可 能 存在 于 数据 中 的 异常 数据 。 但 首先 ， 需 要 识别 这 
些 异常 ， 包 括 查 找 异常 值 、 缺 失 值 ， 以 及 删除 重复 或 高 度 相关 的 属性 。 因 为 当 输 入 属性 彼此 相关 时 ， 一 些 数 据 挖掘 算法 不 能 很 好 
地 工作 。 因 此 ， 需 要 识别 和 移 除 相关 属性 。 


3) 数据 挖掘 任务 : 基本 数据 挖掘 有 时 可 以 蔡 代 整个 数据 挖掘 过 程 。 例 如 ， 散 点 图 可 以 识别 低 维 数据 中 的 聚 类 ， 简 单 的 可 视 
化 图 表 可 以 发 现 回 归 或 分 类 模型 。 


4) 结果 分 析 : 最 后 ， 使 用 数据 探索 来 分 析 预 测 、 分 类 和 聚 类 结果 。 在 低 维 聚 类 中 ， 散 点 图 是 观察 聚 类 的 有 效 方法 。 直 方 
更 方便 查看 属性 的 分 布 ， 并 且 还 可 用 于 可 视 化 数值 预测 和 错误 率 估计 等 场景 。 





接 下 来 我 们 将 介绍 一 些 简单 易 懂 目 易 于 解释 的 经 典 数 据 集 ， 这 些 数据 集 可 以 在 许多 不 同 的 数据 挖掘 技术 中 使 用 ， 从 而 便于 我 
们 比较 这 些 技术 的 性 能 。 用 于 数据 挖掘 的 所 有 数据 集中 ， 最 流行 的 可 能 就 是 Iris 数据 集 了 ， 它 是 由 Ronald Fisher 在 他 关于 判别 分 
析 的 开创 性 著作 《在 分 类 学 问题 中 使 用 多 个 度量 值 》 (Fisher，1936) 中 提出 的 。 扁 竹 花 是 一 种 在 世界 各 地 广泛 发 现 的 开花 植 
物 。 扁 竹 花 包含 超过 300 个 不 同 的 品种 ， 每 个 品种 表现 出 不 同 的 物理 特征 ， 如 花 和 叶 的 形状 和 大 小 。Iris 数 据 集 包 含 三 个 不 同 种 
类 (Iris setosa、lris virginica 和 Iris versicolor) 的 150 个 观察 数据 ， 每 种 有 50 个 观察 数据 。 每 个 观察 数据 包括 四 个 属性 : 莹 片 
长 度 (Sepal Length) 、 苯 片 宽度 (Sepal Width) 、 花 办 长 度 (Petal Length) 和 人 花瓣 宽度 (Petal Width) 。 第 五 个 属性 是 
观察 到 的 物种 的 名 称 ， 分 别 为 Iris setosa、lris virginica 和 Iris versicolor。 人 花 激 是 花 的 内 部 部 分 ， 颜 色 比 较 鲜明 ， 昔 片 是 花 的 外 
部 ， 通 常 是 绿色 的 。 然 而 ， 在 扁 竹 花 中 ， 昔 片 和 花瓣 都 是 紫色 的 ， 但 是 可 以 通过 形状 差异 彼此 区 分 (图 15-1) 。 





图 15-1 扁 竹 花 属 性 示意 图 


Iris 数据 集中 的 所 有 四 个 属性 都 是 以 厘米 为 单位 的 数字 连续 值 。 使 用 线性 回归 或 简单 规则 ， 可 以 很 容易 地 区 分 其 中 一 个 品种 
Iris setosa， 但 是 区 分 virginica 和 versicolor 类 需要 更 复杂 的 规则 ， 涉 及 更 多 的 属性 。 该 数据 集 在 所 有 标准 数据 挖掘 工具 (如 
RapidMiner) 中 都 可 用 ， 也 可 以 从 公共 网 站 下 载 ， 例 如 University of California lrvine-Machine Learning repository[]。 


Iris 数据 集 用 于 学 习 数 据 挖 掘 ， 主 要 是 因为 它 易 于 理解 和 探索 ， 并 且 可 用 于 说 明 不 同 的 数据 挖掘 算法 对 同一 标准 数据 集 执 行 
结果 的 优 务 。 数 据 集 延 伸 到 两 个 维度 之 外 ， 通 过 视觉 探索 可 以 容易 地 分 离 其 中 的 一 个 类 别 (Iris setosa) ， 而 分 类 另外 两 个 类 别 
是 有 挑战 性 的 。 这 再 次 证 明基 于 视觉 规 则 可 以 推导 出 部 分 结果 ， 并 且 同 时 为 数据 挖掘 创建 超出 视觉 探索 界限 的 新 规则 提供 了 和 舞 


人 
口 。 


1 .数据 类 型 


数据 有 不 同 的 格式 和 类 型 。 了 解 每 个 变量 或 属性 的 特性 提供 了 可 以 对 该 变量 执行 什么 类 型 操作 的 信息 。 例 如 ， 天 和 气 数据 中 的 
温度 可 以 表示 为 以 下 格式 中 的 任 一 种 : 


. 摄氏 温度 (310C，33.30C) 、 华 氏 温 度 (100oF，101.45oF) 或 开 氏 温标 。 

. 有 序 标签 ， 如 Hot、Mild 或 Cold。 

. 一 年 内 低 于 0oC 的 天 数 〔 低 于 冰点 的 一 年 中 有 10 天 ) 。 

所 有 这 些 属性 指示 区 域 中 的 温度 ， 但 每 个 属性 具有 不 同 的 数据 类 型 。 这 些 数据 类 型 中 的 一 些 可 以 相互 转换 。 
2. 数 值 类 或 连续 性 数据 


以 摄氏 度 或 华氏 度 表 示 的 温度 是 数值 类 型 的 而 且 是 连续 的 ， 因 为 它 可 以 用 数字 表示 ， 并 且 在 数字 之 间 取 无 穷 数 值 。 值 是 有 序 
的 ， 计 算 值 之 间 的 差异 是 有 意义 的 。 因 此 ， 我 们 可 以 应 用 加 法 、 减 法 和 逻辑 比较 运算 ， 逻 辑 运算 包含 大 于 、 小 于 或 等 于 。 


整数 是 数值 数据 类 型 的 特殊 形式 ， 在 值 中 没有 小 数 ， 更 确切 地 说 ， 在 连续 的 数字 之 间 没 有 无 穷 多 的 值 。 通 常 ， 它 们 表示 诸如 
温度 小 于 0"C 的 天 数 、 订 单数 量 、 家 庭 中 的 孩子 数量 等 。 


如 果 定 义 了 一 个 零点 ， 那 么 这 个 数值 既 可 能 是 比值 类 型 ， 也 可 能 是 实数 值 类 型 ， 例 如 ， 开 氏 温 度 、 银 行 账户 余额 、 收 入 等 。 
与 加 法 和 逻辑 运算 一 起 ， 可 以 用 该 数据 类 型 做 比率 运算 。 在 大 多 数 数据 挖掘 工具 中 ， 整 数 和 比率 数据 类 型 都 被 归 类 为 数值 数据 类 


型 。 
3. 分 类 或 标签 性 数据 


分 类 数据 类 型 是 用 不 同 符号 来 表示 名 称 或 某 种 变量 。 扁 竹 花 的 颜色 就 是 用 分 类 数据 类 型 来 表示 的 ， 因 为 它 有 黑色 、 绿 色 、 赣 
色 、 灰 色 等 值 。 数 据 值 之 间 没 有 直接 的 关系 ， 因 此 除了 逻辑 运算 “是 否 等 于 ”， 我 们 不 能 应 用 其 他 数学 运算 符 。 它 们 也 称 为 标 称 
或 枚 举 数据 类 型 ， 来 自 于 自 拉 J 语 “name'”。 


有 序数 据 类 型 是 分 类 数据 类 型 的 特殊 情况 ， 其 中 值 之 间 可 以 排序 。 有 序数 据 类 型 的 示例 是 以 诸如 差 、 平 均 、 好 和 优等 类 别 表 
示 的 信用 分 数 。 分 数 为 良好 的 人 的 信用 等 级 优 于 平均 水 平 ， 优 秀 的 等 级 是 比 良好 等 级 更 好 的 信用 分 数 。 


数据 类 型 与 数据 要 表达 的 意思 以 及 数据 来 源 有 关 。 并 非 所 有 数据 挖掘 任务 都 支持 所 有 的 数据 类 型 。 例 如 ， 神 经 网 络 算法 不 支 
持 分 类 数据 类 型 。 但 是 ， 我 们 可 以 使 用 类 型 转换 工具 将 数据 从 一 种 数据 类 型 转换 为 另 一 种 数据 类 型 ， 但 这 可 能 会 有 信息 丢失 。 例 
如 ， 用 不 良 、 平 均 、 良 好 和 优异 类 别 表示 的 信用 类 型 可 以 转换 为 ]、2、3、4， 这 四 种 信用 类 型 的 平均 分 数 为 400、500、600、 
700 (这 里 的 分 数 仅仅 是 一 个 例子 ) 。 在 这 种 类 型 的 转换 中 ， 没 有 信息 的 损失 。 然 而 ， 从 数字 信用 分 数 到 类 别 ( 差 、 平 均 、 好 和 
优 ) 的 转换 就 会 导致 一 些 信息 丢失 。 


[1] 本 书 中 使 用 的 数据 集 和 其 他 数据 集 可 以 从 我 们 合作 伙伴 网 站 下 载 : www.Learn Pred ict ive-Analytics.come。 


15.4 ” 描 术 性 统计 


描述 性 统计 是 指 对 数据 集 的 主要 特征 的 平均 值 、 标 准 偏差 或 分 布 量化 等 总 量 的 表达 。 描 述 性 措施 增加 了 对 数据 集 的 理解 ， 这 
些 措施 是 我 们 处 理 数据 时 常用 的 一 些 表达 。 描 述 性 统计 的 一 些 例子 包括 平均 年 收入 、 房 价 的 中 位 数 、 人 群 的 信用 评分 等 。 一 般 来 
说 ， 描 述 性 统计 涵盖 了 样本 或 数据 集 的 以 下 特征 ， 见 表 15-1。 


数据 集 的 特性 测量 方法 

中 心 扣 平均 值 、 中 值 和 雁 数 
数据 的 离散 度 | 光 围 、 方 差 和 标准 仿 差 
数据 的 规律 性 | 对 称 性 、 侦 差 和 峰值 


我 们 接 下 来 探讨 这 些 指标 的 定义 。 在 不 同 的 上 下 文中 ， 描 述 性 统计 可 以 大 致 分 为 单 变量 和 多 变量 探索 ， 这 取决 于 所 分 析 的 变 
量 的 数量 。 


1. 单 量度 数据 探索 


单一 量度 数据 探索 表示 一 次 分 析 一 个 变量 或 属性 。 一 个 物种 Iris setosa 的 Iris 数据 集 有 50 个 观察 值 和 4 个 属性 ， 如 表 15-2 所 
示 。 让 我 们 来 探讨 莹 片 长 度 变量 的 描述 性 统计 。 


表 15-2 ” Iris 数据 集 (Fisher，1936) 





测量 1D 花 闪 宽 度 
1 0.2 
2 0.1 
49 0.2 
50 0.2 
2. 中 心 点 的 计算 


找到 变量 的 中 心 点 的 目的 是 用 一 个 中 心 或 最 常见 的 数字 量化 数据 集 ， 如 表 15-3 所 示 。 


表 15-3 Iris 属性 变量 的 描述 性 统计 


TE 
4 ET 


. 平均 值 : 平均 值 是 数据 集中 所 有 观测 值 的 算术 平均 值 。 它 通过 对 所 有 数据 点 求 和 并 除 以 数据 点 的 数量 来 计算 。 以 厘米 计 的 
葛 片 长 度 的 平均 值 为 5.006。 


“ 中 值 : 中 值 是 分 布 的 中 心 点 的 值 。 通 过 将 所 有 观察 从 小 到 大 排序 并 在 排序 列表 中 选择 中 点 观察 来 计算 中 值 。 如 果 数据 点 的 
数量 是 偶数 ， 则 中 间 两 个 数据 点 的 平均 值 被 用 作 中 值 。 葛 片 长 度 的 中 值 为 5.000。 





. 众 数 : 众 数 是 最 常 发 生 的 观察 。 在 数据 集中 ， 数 据点 可 以 是 重复 的 ， 并 且 最 重复 的 数据 点 是 数据 集 的 众 数 。 在 此 示例 中 ， 
众 数 为 5.100。 


企 变量 中 ， 平 均值 、 中 值 和 众 数 可 以 是 不 同 的 数字 ， 并 且 它 们 表示 数据 分 布 的 状况 。 如 果 数 据 集 的 数据 比较 离散 ， 则 平均 值 
将 受到 影响 ， 而 大 多 数 情况 下 ， 中 值 则 不 会 受到 影响 。 如 果 基 础 数据 集 具 有 重复 值 ， 则 众 数 可 能 不 同 于 平均 值 或 中 值 。 


3 .数据 的 离散 度 


在 沙漠 地 区 ， 白 天 的 温度 超过 110oF， 夜 间 的 温度 低 于 30oF ，24 小 时 的 平均 气温 约 为 70oF。 但 显然 ， 这 种 体验 与 生活 在 平 
均 日 温度 也 在 70oF 的 热带 地 区 是 不 同 的 ， 那 里 的 温度 处 于 一 个 更 窒 的 区 间 内 ， 在 60oF 到 80oF 之 间 。 这 里 重要 的 不 仅 是 温度 的 中 
心 点 ， 还 有 温度 的 离散 度 。 有 两 个 常用 的 度量 来 量化 离散 度 。 


振幅 : 振幅 是 变量 的 最 大 值 和 最 小 值 之 间 的 差 值 ， 这 只 是 简单 的 计算 和 表达 ， 但 是 它 的 缺点 是 严重 忽略 了 异常 值 的 存在 ， 并 
没有 考虑 其 他 所 有 数据 点 的 分 布 属性 ， 特 别 是 中 心 点 。 比 如 说 ， 沙 汉 地 区 的 温度 振幅 为 80"F， 热 带 地 区 的 温度 振幅 为 20"F。 沙 
漠 地 区 的 温差 会 更 大 。 


偏差 : 方差 和 标准 偏差 通过 履 盖 属性 的 所 有 数据 点 的 值 来 测量 其 范围 。 偏 差 简单 地 计算 为 任何 给 定 值 和 数据 的 平均 值 之 间 的 


的 平方 根 。 对 于 具有 N 个 观察 值 的 数据 集 ， 方 差 由 以 下 等 式 给 出 


1 < 
方差 =9 = 一 (XH 
V 放 


由 于 标准 差 是 以 与 变量 相同 的 单位 来 测量 的 ， 因 此 容易 理解 度量 的 大 小 。 高 标准 差 意味 着 数据 点 通常 广泛 分 布 在 中 心 点 周 
围 。 低 标准 偏差 则 意味 着 数据 点 更 接近 中 心 点 。 如 果 数 据 的 分 布 与 正 态 分 布 一 致 ， 就 有 639% 的 数据 点 在 距离 平均 值 的 一 个 标准 差 
内 。 图 15-2 提 供 了 Iris 数据 集 的 单个 变量 汇总 。 


2 


sepal Longn Be 
Sepal Width 二 Real 0 二 i re pote 
Petal Conan A 
Petal Width Real 0 0 nn te Ar Doviatee 


1.199 0.763 


图 15-2 Iris 数据 集 的 描述 性 统计 


4. 多 变量 探索 


多 变量 探索 同时 研究 数据 集中 的 多 个 属性 。 这 种 技术 对 于 理解 属性 之 间 的 关系 至 关 重要 ， 也 对 数据 挖掘 问题 的 目标 非常 重 
要 。 像 对 单个 变量 探索 一 样 ， 我 们 将 讨论 数据 中 集中 趋势 和 数据 的 变化 规律 。 


5. 中 心 数据 点 
在 Iris 数据 集中 ， 我 们 可 以 将 每 个 数据 点 表示 为 所 有 四 个 属性 的 集合 : 
观测 值 : { 苯 片 长 度 ， 萝 片 宽度 ， 花 闪 长 度 ， 花 准 宽 度 } 


例如 ， 我 们 有 观测 值 1: {5.1，3.5，1.4，0.2}。 该 观察 点 可 以 以 四 维 华 卡 儿 坐标 表示 并 在 图 中 绘制 (尽管 在 视觉 图 中 绘制 多 
于 三 个 维度 是 具有 挑战 的 ) 。 这 样 ， 我 们 可 以 在 笛 卡 儿 坐 标 中 表达 所 有 150 个 观测 值 。 如 果 我 们 的 目标 是 找到 最 “典型 ”的 观测 
点 ， 它 将 是 由 数据 集中 每 个 属性 的 均值 独立 构成 的 数据 点 。 对 于 表 15-2 所 示 的 Iris 数据 集 ， 中 心平 均 点 为 
{5.006，3.418，1.464，0.244}。 由 于 我 们 计算 的 是 平均 值 ， 所 以 该 数据 点 可 能 并 非 实际 观测 值 。 它 将 是 具有 最 典型 属性 值 的 假 
设 数据 点 。 


6. 相 关 性 


相关 性 是 测量 两 个 变量 之 间 的 统计 关系 ， 特 别 是 一 个 变量 与 另 一 个 变量 的 依赖 性 。 当 两 个 变量 彼此 高 度 相关 时 ， 它 们 在 相同 
或 相反 的 方向 上 彼此 以 相同 的 速率 变化 。 例 如 ， 考 虑 一 天 的 平均 温度 和 冰激凌 销量 。 在 统计 上 ， 相 关 的 两 个 变量 相互 关联 ， 并 且 
一 个 可 以 用 于 预测 男 一 个 。 如 果 有 足够 的 数据 ， 我 们 可 以 根据 温度 的 变化 预测 冰激凌 的 未 来 销量 。 然 而 ， 两 个 变量 之 间 的 相关 并 
不 意味 着 简单 的 因果 关系 ， 也 就 是 说 ， 一 个 因素 不 一 定 导致 男 一 个 因素 。 冰 激 凌 销量 和 郑 鱼 攻击 是 相关 的 ， 但 没有 因果 关系 。 冰 
激 凌 销 量 和 卷 鱼 攻击 都 受到 第 三 个 变量 一 一 夏季 的 影响 。 一 般 来 说 ， 冰 激 凌 的 销量 随 着 温度 的 上 升 而 增加 ， 温 度 上 升 会 导致 更 
多 的 人 去 海 淮 ， 这 就 增加 了 与 益 鱼 的 接触 。 


两 个 属性 之 间 的 相关 性 通常 用 皮尔 逊 相关 系数 (Pearson correlation coefficient) 来 测量 ， 其 线性 相关 的 强度 (图 15-3) 
通常 用 [或 是 p 表 示 ， 用 来 度量 两 个 变量 x 和 y 之 间 的 相互 关系 (线性 相关 ) ， 取 值 范围 在 [-1，+1] 之 间 。 更 接近 1 或 -1 的 值 指示 两 
个 变量 高 度 相关 ， 在 1 或 -1 处 具有 完全 相关 。 当 变量 受 物理 定律 支配 时 ， 例 如 ， 当 我 们 观察 物体 的 重力 和 质量 (牛顿 第 二 定律 ) 
的 值 与 产品 的 价格 和 总 销售 (价格 x 体积 ) 的 值 时 ， 它 们 是 完全 相关 的 。 相 关 值 为 0 表示 两 个 变量 之 间 没 有 线性 天 系 。 


两 个 变量 x 和 y 之 间 的 皮尔 逊 相关 系数 通过 以 下 公式 计算 : 
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图 15-3 ”变量 的 相关 性 
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其 中 Sx 和 Sy 分 别 是 随机 变量 x 和 y 的 标准 偏差 。 相 关系 数 在 量化 相关 的 强度 方面 具有 一 些 限制 。 当 数据 集 有 更 复杂 的 非 线性 关 
系 (例如 二 次 函数 ) 时 ， 可 以 使 用 皮尔 逊 相 关系 数 来 考虑 和 量化 对 线性 关系 的 影响 。 异 常 值 的 存在 也 影响 偏 移 相 关 性 的 测量 。 表 
面 上 ， 可 以 使 用 每 个 笛 卡 儿 坐 标 中 的 变量 的 离散 点 图 观察 相关 性 (图 15-3) 。 事 实 上 ， 可 视 化 应 该 是 理解 相关 性 的 第 一 步 ， 
为 它 可 以 识别 非 线 性 关系 ， 并 在 数据 集中 显示 所 有 异常 值 。Anscombe 的 四 组 数据 清楚 地 说 明了 仪 依赖 于 相关 系数 的 限制 (图 
15-4) 。 四 组 数据 由 四 个 不 同 的 数据 集 组 成 ， 具 有 两 个 变量 (x，y) 。 所 有 四 个 数据 集 具 有 相同 的 平均 值 、x 和 y 的 方差 以 及 Xx 和 
y 之 间 的 相关 系数 ， 但 在 图 表 中 绘制 时 看 起 来 却 截然 不 同 。 这 就 说 明了 可 视 化 变量 不 仅仅 是 计算 统计 特性 的 必要 性 。 
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图 15-4 ”四 种 散 点 图 


15.5 ”数据 可 视 化 


可 视 化 是 数据 发 现 和 探索 最 重要 的 方面 之 一 。 昌 然 可 视 化 不 被 视 为 数据 挖掘 技术 ， 但 是 诸如 视觉 挖 掘 或 基于 视觉 的 模式 发 现 
的 术语 越 来 越 多 地 用 于 数据 挖掘 的 上 下 文中 ， 特 别 是 在 商业 领域 。 数 据 可 视 化 原则 包括 以 抽象 视 党 方式 表达 数据 的 方法 ， 使 具有 
多 个 变量 及 其 基础 天 系 的 复杂 数据 更 容易 理解 。 数 据 可 视 化 包括 以 下 内 容 。 


密集 信息 的 理解 : 一 个 简单 的 视 党 图 表 可 以 轻松 包含 数 干 个 数据 点 。 通 过 使 用 视觉 效果 ， 用 户 可 以 看 到 大 图 以 及 难以 通过 数 
字 来 表达 的 长 期 趋势 。 


探索 变量 之 间 的 关系 : 在 笛 卡 儿 坐 标 中 数据 可 视 化 可 以 探索 变量 之 间 的 天 系 。 尽 管 在 x、y 和 z 轴 上 表示 多 于 三 个 变量 在 笛 卡 
儿 坐 标 系 中 是 不 可 行 的 ， 但 是 通过 改变 属性 (如 数据 标记 的 大 小 、 颜 色 和 形状 ) 或 使 用 流 图 (Tufte，2001) ， 可 以 使 其 在 二 维 
介质 中 使 用 多 于 两 个 属性 。 


视觉 是 人 体 最 有 力 的 感觉 ， 它 与 认 知 思维 密切 相关 (Few，2006) ， 即 使 在 存在 大 量 数据 的 情况 下 也 能 发 现 模式 和 异常 。 
然而 ， 模 式 检测 的 有 效 性 取决 于 信息 在 视觉 上 如 何 有 效 地 展现 。 因 此 ， 选 择 合适 的 视觉 技术 来 探索 数据 ， 对 于 发 现 和 理解 数据 中 
的 隐藏 模式 是 非常 重要 的 (Ware，2004) 。 在 本 章 中 ， 我 们 将 可 视 化 技术 分 类 为 单 变量 可 视 化 、 多 变量 可 视 化 和 使 用 平行 维度 


ss 旦 . 旦 . 
显示 大 量变 量 。 


我 们 将 回顾 一 些 用 于 分 析 数 据 的 常见 数据 可 视 化 技术 。 这 些 可 视 化 技术 中 的 大 多 数 都 可 以 在 诸如 MS Excel 的 商业 电子 表格 
软件 中 获得 。RapidMiner 像 任何 其 他 数据 挖掘 工具 一 样 ， 提 供 了 广泛 的 可 视 化 工具 。 为 了 保持 与 本 书 其 余部 分 的 一 致 性 ，lris 数 


据 集 使 用 RapidMiner 输 出 所 有 以 下 可 视 化 图 表 。 如 果 你 是 RapidMiner 新 手 ， 建 议 查 看 RapidMiner 的 相关 入 门 知识 。 
1. 可 视 化 中 数据 的 频率 分 布 
我 们 从 单 变量 的 一 次 数据 调查 图 表 开始 视觉 探索 ， 本 节 讨论 的 技术 显示 了 属性 值 如 何 分 布 和 分 布 形状 的 概念 。 
(1) 柱状 图 


柱状 图 是 理解 一 个 变量 的 一 系列 值 的 出 现 频率 的 最 基本 的 视图 方式 之 一 。 它 通过 在 一 个 范围 内 绘制 频率 来 近似 地 确定 数据 的 
分 布 。 在 柱状 图 中 ， 横 轴 为 查询 下 的 连续 变量 ， 纵 轴 为 出 现 频率 。 对 于 连续 的 数值 数据 类 型 ,我 们 需要 指定 范围 或 分 级 值 来 对 一 
个 值 范围 进行 分 组 。 例 如 ， 在 人 类 以 厘米 计 的 高 度 的 情况 下 ， 在 152.00 和 152.99 之 间 的 所 有 出 现 被 分 组 在 152 下 。 没 有 描述 所 有 
分 布 的 最 优 数目 的 容器 或 容器 宽度 。 一 般 来 说 ， 如 果 容 器 宽度 太 小 ， 则 分 布 变 得 更 精确 ， 但 是 数据 采样 会 更 复杂 。 一 般 的 经 验 法 
则 是 取 与 数据 点 的 数量 的 平方 根 或 立方 根 相当 的 数量 容器 。 


柱状 图 便于 查找 数据 的 中 心 位 置 、 范 围 和 形状 。 在 lris 数 据 集中 的 花瓣 长 度 变 量 的 柱状 图 中 ， 我 们 看 到 数据 是 多 模式 的 (图 
15-5) ， 其 中 分 布 不 遵循 正 态 分 布 曲线 模式 。 相 反 ， 在 分 布 中 有 峰值 和 谷 值 。 这 是 由 于 我 们 在 数据 集中 有 三 个 不 同 物种 的 150 个 
观察 结果 。 如 果 我 们 按 范围 时 所 有 频率 求 和 ， 总 和 是 150。 
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图 15-5 ” ”Iris 数据 集中 的 花 准 长度 柱状 图 


可 以 修改 柱状 图 以 包括 不 同 的 类 型 ， 在 这 种 情况 下 数据 包含 多 个 种 类 ， 以 便 获得 更 多 的 洞察 。 带 有 类 型 标签 的 增强 柱状 图 显 
示 数 据 集 由 三 个 不 同 分 布 (图 15-6) 组 成 : Iris setosa 的 分 布 在 1 至 2cm 范 围 内 1.25 的 周边 ，lris versicolor 和 Iris virginica 的 分 


布 与 Iris setosa 有 交叉 和 分 离 。 
(2) 箱 线 图 


箱 线 图 也 叫 四 分 位 图 ， 是 一 种 简单 的 视觉 方式 ， 易 于 显示 连续 变量 的 分 布 ， 其 中 包括 四 分 位 数 、 中 位 数 和 离 群 值 ， 在 有 些 情 
况 下 使 用 平均 值 和 标准 偏差 。 箱 线 图 的 主要 优点 是 ， 我 们 可 以 并 行 比较 多 个 分 布 ， 并 推断 它们 之 间 是 否 重 者 。 四 分 位 数 用 Q1、 
Q2 和 Q3 点 表示 ， 其 指示 具有 25% 区 间 大 小 的 数据 点 。 在 分 布 中 ，25% 的 数据 点 将 低 于 Q1，50% 将 低 于 Q2，75% 将 低 于 Q3。 


Iris setosa Iris versicolor Iris virginica 


14.5 
14.0 
13:3 


Iris setosa 


Frequency 
一 
un 


Iris virginica 








Iris versicolor 
Ff 
| 
[| 
| 
| 
| 
| 


| | L 山 有 
0.0 0.5 10 1.5 20 23 3.0 33 40 4.5 $5.0 5.5 6.0 6.5 7.0 7.3 8.0 8.5 
Petal Length 


图 15-6 ”Iris 数据 集中 花 闪 长 度 的 分 层 分 布 柱状 图 


箱 线 图 中 的 Q1 和 Q3 点 由 框 的 边缘 表示 。Q2 点 由 框 内 的 交叉 线 表 示 。Q2 也 是 分 布 的 中 值 。 异 常 值 由 线 末端 的 圆圈 表示 。 在 
一 些 情 况 下 ， 平 均 点 由 实 线 点 覆盖 ， 随 后 是 标准 差 表 示 为 线 覆 盖 。 


在 图 15-7 中 ，lris 数 据 集 的 所 有 四 个 变量 的 箱 线 图 并 排 绘制 。 我 们 可 以 注意 到 ，150 个 观察 中 ， 论 瓣 长 度 具 有 最 宽 的 分 布 ， 
人 花 小 宽度 通常 是 所 有 四 个 变量 中 的 最 小 测量 。 


我 们 还 可 以 选择 一 个 变量 花 准 长 度 ， 并 通过 引入 一 个 类 变量 ， 使 用 箱 线 图 进一步 探索 它 。 在 图 15-8 的 图 中 ， 我 们 可 以 看 到 
人 花 小 长 度 测 量 的 三 种 分 布 。 与 之 前 的 比较 类 似 ， 可 以 比较 多 种 数值 的 分 布 。 


(3) 分 布 图 


对 于 像 人 花瓣 长 度 这 样 的 连续 数值 变量 ， 我 们 可 以 对 其 使 用 正 态 分 布 函数 计算 后 的 数据 进行 可 视 化 ， 而 不 是 实际 的 样本 数据 。 


连续 随机 变量 的 正 态 分 布 冰 数 公式 如 下 : 
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图 15-7 Iris 数据 集 的 箱 线 图 
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图 15-8 Itis 数 据 集中 花 办 长 度 的 分 层 箱 线 图 


其 中 ，h 表 示 分 布 的 平均 值 ，a 表 示 分 布 的 标准 差 。 在 此 我 们 做 一 个 固有 假设 ， 即 花 斩 长 度 (或 任何 连续 变量 ) 的 测量 遵循 
正 态 分 布 ， 之 后 就 可 以 对 其 计算 后 的 数据 进行 可 视 化 ， 来 代替 实际 数据 。 正 态 分 布 又 称 为 高 斯 分 布 ， 由 于 其 分 布 曲线 形状 类 似 钟 
形 ， 因 此 正 态 分 布 曲线 也 被 称 为 钟 形 曲线 。 正 态 分 布 函数 表明 一 个 数据 点 在 一 定 范围 内 出 现 的 概率 。 如 果 数 据 集 呈 现 正 态 分 布 ， 
则 68.2% 的 数据 点 落 在 距离 平均 值 的 10 内 ，95.4% 的 数据 点 落 在 20 内 ，99.7% 落 在 30 内 。 当 正 态 分 布 曲 线 按 品种 分 层 时 ， 我 们 可 
以 更 好 地 了 解数 据 。 图 15-9 显 示 了 每 种 扁 竹 花 的 花 准 长 度 的 正 态 分 布 曲线 。 从 分 布 图 中 ， 我 们 可 以 推断 出 Iris setosa 样 本 的 花瓣 
长 度 比 lris versicolor 和 Iris virginica 更 加 独特 以 及 更 有 粘性 。 如 果 未 标记 测量 结果 为 1.5 厘 米 ， 我 们 可 以 预测 品种 是 Iris setosa; 
如 果 测 量 长 度 是 5.0 厘 米 ， 则 基于 花 闪 长 度 不 能 明确 地 预测 出 品种 ， 因 为 它 可 能 是 Iris versicolor 或 Iris virginica。 
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图 15-9 ” Iris 数据 集中 花 闪 长 度 分 布 
2. 在 笛 卡 儿 坐 标 系 中 多 变量 的 可 视 化 


变量 视图 探索 会 在 同一 视图 中 考虑 多 个 特征 。 本 节 主 要 讨论 特征 之 间 关 系 的 技术 。 这 些 可 视 化 同时 检查 两 个 到 四 个 特征 ， 
当 同 时 研究 超过 三 个 特征 时 ， 情 况 会 变 得 更 加 复杂 。 


(1) 散 点 图 


散 点 图 是 可 用 的 简单 而 强大 的 数学 图 之 一 。 在 散 点 图 中 ， 数 据点 在 笛 卡 儿 空间 中 标记 ， 同 时 数据 集 的 变量 个 数 与 坐标 轴 个 数 
一 致 。 变 量 或 维度 通常 是 连续 数据 类 型 。 数 据点 本 身 也 可 以 被 着 色 ， 颜 色 值 可 以 表示 数据 集 其 中 的 一 个 或 多 个 变量 。 我 们 可 以 从 
散 点 图 中 得 到 两 个 变量 之 间 的 关系 ， 如 果 变 量具 有 相关 性 ， 则 数据 点 位 置 更 倾向 于 对 齐 一 条 假想 直线 ;如 果 它 们 不 相关 ， 则 数据 
点 分 布 较为 分 散 。 除 了 基本 相关 性 之 外 ， 散 点 图 还 可 以 指示 数据 中 存在 的 模式 或 聚 类 组 ， 并 且 标 识 出 数据 中 的 异常 值 ， 这 对 于 低 
维度 的 数据 集 特别 有 用 。 异 常 检 测 提供 的 技术 就 是 通过 计算 数据 点 之 间 的 距离 来 查找 高 维 空间 中 的 异常 值 。 


图 15-10 显 示 了 论辩 长 度 (x 轴 ) 和 人 花 斩 宽度 (y 轴 ) 之 间 的 散 点 图 。 通 常 ， 这 两 个 特征 略 有 相关 ， 因 为 测量 的 是 花瓣 的 同一 
部 分 。 当 使 用 类 别 标签 对 数据 着 色 以 指示 不 同 的 品种 时 ,我 们 可 以 观察 到 更 多 的 模式 。 在 图 的 左下 方 有 一 个 数据 点 集群 ， 都 属于 
Iris setosa 品 种 。Iris setosa 具 有 更 小 的 花瓣 长 度 和 宽度 ， 这 个 特点 可 以 用 作 预 测 未 观测 种 类 的 规则 。 散 点 图 的 限制 之 一 是 每 次 
只 能 使 用 两 个 变量 ， 其 他 变量 可 以 通过 数据 标记 的 颜色 显示 (通常 用 于 类 别 标签 ) 。 
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图 15-10 Iris 数据 集 的 散 点 图 


(2) 散 点 复合 


散 点 复合 是 简单 散 点 图 的 增强 形式 ， 这 种 图 中 可 包含 两 个 以 上 的 维度 ， 并 同时 进行 研究 。x 轴 作为 主轴 ， 用 来 表示 主 变量 ， 
其 他 多 个 变量 或 维度 共用 一 个 辅助 轴 y 轴 。 在 本 例 中 (图 15-11) ，y 轴 上 的 刻度 值 由 莹 片 长 度 、 莹 片 宽 度 和 花 状 宽度 共用 ， 并 使 
用 颜色 来 区 分 变量 。 这 里 ， 昔 片 长 度 由 位 于 图 表 最 上 面部 分 的 数据 点 表示 ， 昔 片 宽 度 位 于 图 表 中 间 部 分 ， 花 小 宽度 位 于 图 表 底 部 
部 分 。 注 意 ， 数 据点 对 于 y 轴 上 的 每 个 变量 是 重复 的 。y 轴 所 对 应 的 每 个 维度 以 颜色 编码 ， 并 且 x 轴 由 伦 办 长 度 这 个 变量 所 锁定 。 
即使 允许 在 一 个 散 点 复合 图 中 探索 多 种 维度 ， 但 同一 时 间 只 能 比较 两 个 变量 ， 而 且 其 中 一 个 是 主轴 所 表示 的 变量 。 


(3) 散 点 矩阵 
散 点 复合 图 允许 通过 散 点 图 比较 两 个 以 上 的 变量 。 但 总 要 与 主 变量 进行 比较 ， 并 且 在 y 轴 上 两 个 变量 之 间 的 关系 不 是 很 明 


显 。 如 果 数 据 集 有 更 多 的 变量 ， 通 过 散 点 图 来 查看 所 有 变量 的 组 合 更 为 重要 。 散 点 矩阵 解决 了 上 述 的 需求 ， 它 将 所 有 的 变量 组 合 
形成 独立 的 散 点 图 ， 并 将 这 些 图 布置 在 同一 矩阵 中 进行 比较 。 
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图 15-11 Iris 数据 集 的 散 点 复合 图 


Iris 数据 集中 四 个 特征 的 散 点 矩阵 如 图 15-12 所 示 。 数 据点 的 颜色 用 于 标明 伦 的 品种 。 由 于 有 四 个 特征 ， 矩 阵 包含 四 行 四 
列 ， 共 有 16 个 散 点 图 。 对 角 线 上 的 图 表 是 变量 与 自身 的 比较 ， 因 此 可 以 忽略 这 些 图 表 。 此 外 ， 对 角 线 下 方 的 图 表 是 上 方 图 表 的 
镜像 。 实 际 上 ， 在 四 个 变量 的 散 点 复合 图 中 存在 六 种 不 同 的 比较 方式 。 散 点 矩 阵 提供 一 种 有 效 的 可 视 化 方案 ， 在 同一 个 散 点 图 
中 ， 以 小 倍数 来 展示 多 元 及 高 密度 数据 。 
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图 15-12 ”Iris 数 据 集 的 散 点 矩阵 图 
(4) 气泡 图 


气泡 图 是 简单 散 点 图 的 一 种 变 体 ， 其 增加 了 一 个 变量 ， 用 于 确定 数据 点 的 大 小 。 在 Iris 数据 集中 ，x 轴 表示 花 闪 长度，y 轴 表 
示人 花瓣 宽度 ， 数 据点 大 小 表示 苯 片 宽度 ， 数 据点 颜色 表示 品种 类 别 标签 (图 15-13) 。 


(5) 密度 图 
密度 图 类 似 于 散 点 图 ， 将 背景 色 作为 一 个 维度 。 着 色 的 数据 点 显示 一 个 维度 ， 因 此 在 一 张 密度 图 中 总 共 可 以 显示 四 种 维度 。 
在 图 15-14 的 示例 中 ，x 轴 表示 花 妆 长 度 ，y 轴 表示 莹 片 长 度 ， 背 景色 表示 莹 片 宽度 ， 数 据点 颜色 表示 类 别 标签 。 
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图 15-13 Iris 数据 集 的 气泡 图 
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图 15-14 ”Iris 数 据 集 的 密度 图 
3. 通 过 投影 可 视 化 高 维 数据 
在 一 个 二 维 媒介 ( 像 纸 张 、 屏 幕 ) 可 视 化 超过 三 个 属性 ， 是 一 个 挑战 。 我 们 可 以 使 用 转换 技术 在 平行 轴 空 间 投影 多 个 数据 点 
来 克服 这 个 限制 。 通 过 这 个 方法 ， 一 个 笛 卡 儿 轴 可 以 被 多 个 属性 共享 。 
(1) 平行 图 


平行 图 通过 转换 或 映射 多 维 数据 到 二 维 图 中 ， 非 常 创 新 地 可 视 化 一 个 数据 点 。 在 这 个 图 中 ， 每 个 属性 或 维度 线性 地 排列 在 一 
个 坐标 轴 (x 轴 ) ， 所 有 这 些 计 量 值 排列 在 其 他 坐标 轴 (y 轴 ) 。 因 为 x 轴 是 多 属性 的 ， 每 一 个 点 表示 平行 空间 中 的 一 条 线 。 


就 Iris 数据 集 来 说 ， 所 有 四 个 属性 沿 x 轴 排列 ， 一 个 数据 点 表示 一 次 观察 数据 ，y 轴 表示 x 轴 所 有 属性 共享 的 公共 距离 。 因 此 ， 
当 属 性 共享 一 个 数据 计算 单位 时 ， 平 行 图 才 有 效 。 如 果 有 不 同 的 单位 ， 我 们 仍然 可 以 通过 标准 化 属性 单位 使 用 并 行 图 表 。 因 为 四 
个 平行 于 y 轴 的 平行 轴 表 示 所 有 四 个 属性 ， 这 种 可 视 化 方法 被 称 作 平行 轴线 。 


在 这 个 图 中 ， 每 一 个 数据 线 被 着 不 同类 别 的 颜色 ， 以 便 我 们 引入 一 个 新 的 维度 进入 图 片 。 通 过 观察 图 15-15 的 平行 图 ， 我 们 
注意 到 ， 这 三 个 品种 在 莹 片 宽度 属性 之 间 有 重 里 。 所 以 ， 莹 片 宽度 不 能 用 于 区 分 这 三 种 物种 的 指标 。 然 而 ， 在 花 闻 长 度 特征 有 清 
晰 的 物种 分 离 。 没 有 观察 到 Iris setosa 的 花瓣 长 低 于 2.5cm， 并 且 Iris virginica 和 |ris versicolor 物 种 之 间 很 少 重 荆 。 在 视觉 上 ， 
只 是 知道 花瓣 长 度 的 一 个 未 知 观察 ， 我 们 就 可 以 预测 扁 竹 花 的 种 类 。 我 们 将 在 后 面 的 分 类 章节 检验 这 个 假设 。 
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图 15-15 Iris 数据 集 平行 图 
(2) 偏差 图 


偏差 图 非常 类 似 于 并 行 图 ， 因 为 它 在 x 轴 表示 所 有 属性 。 数 据点 横 跨 维度 延伸 成 线 且 它们 共用 同一 个 y 轴 。 偏 差 图 只 显示 平均 
值 和 标准 偏差 的 统计 信息 ， 而 不 是 绘制 所 有 数据 点 。 对 于 每 个 属性 ， 偏 差 图 显示 连接 各 个 属性 平均 值 的 平均 线 ， 标 准 差 显示 高 于 
和 低 于 平均 线 的 波段 。 平 均线 不 对 应 于 一 个 数据 点 ( 线 ) 。 某 种 程度 上 ， 在 优雅 地 显示 信息 的 同时 也 保持 了 平行 图 本 质 的 一 致 
性 。 


在 图 15-16 中 ， 颜 色 和 分 层 显示 的 是 物种 类 别 ， 我 们 可 以 观察 到 人 花 办 长 度 是 物种 类 别 的 主要 区 别 ， 因 为 不 同 物种 的 平均 线 和 
标准 差分 离 得 比较 远 。 
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图 15-16 Iris 数据 集 的 偏差 图 
(3) 安德鲁 斯 图 


安德鲁 斯 图 属于 可 视 化 技术 家 族 ， 这 里 高 纬度 数据 被 投射 到 向 量 空 间 ， 使 每 个 数据 点 表现 为 直线 或 曲线 的 样子 。 在 安德鲁 斯 
图 中 ， 每 个 数据 点 X 有 d 个 维度 ， 用 传 里 叶 级 数 的 形式 表示 X= (x1，x2，xX3，.…，xd) : 


大 (1) = 了 + sin (1)+ x cos(t)+x sin(2t)+xs cos(21) 十 … 


V2 


这 个 函数 表示 -T<t<T 之 间 的 所 有 数据 点 ， 安 德 鲁 斯 图 在 确定 数据 中 是 否 存 在 极端 值 和 找 出 数据 点 中 的 潜在 模式 时 是 非常 
有 用 的 (图 15-17) 。 如 果 两 组 数据 点 是 相似 的 ， 则 数据 点 的 曲线 是 相互 靠近 的 。 如 果 曲 线 是 相距 甚 远 且 属于 不 同 的 类 别 ， 那 么 
我 们 就 可 以 利用 这 些 信息 来 对 数据 进行 分 类 。 


以 上 我 们 使 用 图 表 和 视 党 效果 来 研究 数据 集 的 多 元 关系 。 它 们 是 一 套用 于 数据 探索 、 后 期 处 理 和 理解 数据 挖掘 模型 的 经 典 的 
数据 可 视 化 方法 。 随 着 互联 网 和 计算 机 的 发 展 ， 数 据 可 视 化 领域 也 出 现 了 新 的 方法 。 为 了 更 好 地 分 析 来 自 社交 网 络 和 应 用 集成 的 
数据 ， 经 常会 用 到 连通 图 。 利 用 可 视 化 软件 的 交互 数据 探索 ， 提 供 了 在 同一 时 间 观 察 多 个 属性 的 一 套 重要 工具 ， 但 在 可 视 化 的 属 
性 和 数量 上 有 限制 。 因 而 ， 多 维 降 维 技术 特征 选择 可 以 帮助 可 视 化 高 维 数据 。 
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图 15-17 Iris 数据 集 的 安德鲁 斯 曲线 


15.6 ”数据 探索 路 线 图 


如 果 有 一 个 以 前 没有 被 研究 过 的 新 的 数据 集 ， 那 么 一 个 系统 化 的 方法 来 探索 和 分 析 数 据 是 会 很 有 帮助 的 。 这 里 我 们 总 结 了 一 
种 分 析 新 的 数据 集 的 简易 路 线 图 。 对 于 每 一 个 数据 集 ， 并 非 所 有 步骤 都 是 必需 的 ， 而 对 于 某 些 数据 集 ， 分 析 的 顺序 可 能 需要 调 
整 ， 因 此 鼓励 读者 将 这 个 路 线 图 作为 指导 或 参考 。 

1) 组 织 数 据 集 : 用 标准 的 行 和 列 结构 化 数据 集 。 对 于 许多 分 析 工 具 ， 按 照 行 、 维 度 或 者 属性 列 的 方式 组 织 数 据 集 是 很 有 用 
的 。 如 果 适 用 这 种 方式 ， 需 确定 目标 或 分 类 。 

2) 找到 每 一 个 属性 的 中 心 点 : 计算 每 一 个 属性 和 分 类 标记 的 平均 值 、 中 位 数 和 众 数 ， 如 果 三 个 值 有 很 大 的 不 同 ， 可 能 存在 
异常 值 或 多 峰 或 非 正常 分 布 。 

3) 理解 属性 的 离散 度 : 计算 数据 的 标准 差 和 范围 。 比 较 标准 差 和 平均 值 ， 以 及 最 大 值 和 最 小 值 ， 了 解数 据 的 离散 度 。 

4) 使 用 可 视 化 分 析 每 一 个 属性 : 制作 属性 的 直方 图 和 分 布 图 。 对 类 分 层 直方 图 和 分 布 图 重复 同样 的 操作 ， 其 中 对 于 每 个 类 
重复 绘图 或 颜色 编码 加 以 区 分 。 

5) 透视 数据 : 有 时 也 称 作 维度 切片 ， 透 视 对 了 解 同 一 属性 的 不 同 值 是 非常 有 用 的 。 这 种 技术 能 分 类 和 下 钻 到 所 有 属性 的 细 
节 。Microsoft Excel 就 有 这 种 功能 。 





6) 当心 异常 值 : 用 散 点 图 或 四 分 位 数 很 容易 发 现 寞 常 值 。 异 常 值 的 出 现 会 扭曲 一 些 统计 值 如 均值 、 方 差 和 范围 。 根 据 应 
用 ， 异 常 值 在 重新 运行 数据 分 析 时 可 以 被 排除 在 外 。 注 意 : 因为 需求 不 同 ， 在 一 些 应 用 中 ， 识 别 异 常 值 可 能 是 分 析 的 目标 。 


7) 理解 属性 之 间 的 关系 : 计算 属性 之 间 的 相关 性 并 制作 相关 和 矩阵。 注意 发 现 属性 之 间 的 相互 依赖 并 研究 为 什么 会 依赖 。 
8) 可 视 化 属性 间 关 系 : 绘制 一 个 快速 散布 矩阵 一 次 发 现 多 个 属性 之 间 的 关系 。 用 二 维 散 点 图 观察 两 个 属性 的 天 系 。 


9) 可 视 化 高 维 数据 集 : 创建 并 行 图 和 安德鲁 斯 曲线 观察 每 个 属性 表现 出 的 类 别 差 异 。 偏 差 图 可 以 快速 地 评估 每 个 属性 的 离 
散 度 。 


第 16 章 ”大 数据 、 数 据 科学 和 数据 挖掘 


在 数据 中 发 现 有 用 的 关系 和 模式 的 方法 是 通过 称 为 数据 挖掘 过 程 的 一 组 迭代 活动 来 实现 的 。 标 准 数据 挖掘 过 程 包 括 : (1) 
理解 问题 ，(2) 准备 数据 样本 ; (3) 开发 模型 ， (4) 将 该 模型 应 用 于 数据 集 以 观察 模型 如 何在 现实 世界 中 工作 ; (5) 生产 
部 署 。 在 数据 挖掘 实践 的 多 年 发 展 中 ， 各 种 学 术 和 商业 机 构 已 经 提出 了 用 于 数据 挖掘 过 程 的 不 同 框架 。 在 本 章 中 ， 我 们 将 讨论 构 
建成 功 的 数据 挖掘 解决 方案 所 涉及 的 关键 步骤 。 我 们 在 本 章 中 提出 的 框架 是 在 几 个 已 有 的 数据 挖掘 框架 基础 之 上 总 结 的 ， 并 使 用 
简单 的 示例 数据 集 解释 。 本 章 作为 构建 可 部 署 数 据 挖 掘 模型 的 高 级 路 线 图 ， 讨 论 了 每 个 步骤 中 面临 的 挑战 以 及 重要 注意 事项 和 要 
避免 的 陷阱 。 


最 流行 的 数据 挖掘 过 程 框架 之 一 是 CRISP-DM ， 它 是 用 于 数据 挖掘 的 跨行 业 标准 过 程 (CRoss Industry Standard Process 
for Data Mining) 的 缩写 。 这 个 框架 由 参与 数据 挖掘 的 许多 公司 的 联合 开 帮 。CRISP-DM 过 程 是 开发 数据 挖掘 解决 方案 最 广泛 
采用 的 框架 。 图 16-1 提 供 了 CRISP-DM 框 架 的 可 视 化 概述 。 其 他 数据 挖掘 框架 还 有 SEMMA， 它 是 sample、Explore、 

Modify、Model 和 Assesss 首 字母 的 缩写 ， 由 SAS 研 究 所 于 2013 年 开发 ; DMAIC 是 Define、Measure、Analyze、Improve 和 
Control 的 首 字母 缩写 ， 它 是 六 西格玛 实践 中 使 用 的 定义 ， 以 及 用 于 数据 库 过 程 中 的 知识 发 现 (KDD) 的 选择 、 预 处 理 、 变 形 、 
数据 挖掘 、 解 释 和 评估 框架 。 所 有 这 些 框架 都 表现 出 共同 的 特征 ， 因 此 我 们 将 使 用 非常 类 似 于 CRISP 过 程 的 通用 框架 。 与 任何 过 
程 框架 一 样 ， 数 据 挖掘 过 程 推荐 执行 某 一 组 任务 以 实现 最 佳 输出 。 从 数据 提取 信息 的 过 程 是 迭代 的 ， 数 据 挖 扎 过 程 中 的 步 又 不 是 
线性 的 ， 在 步骤 之 间 有 许多 循环 ， 有 时 会 回 到 第 一 步 重 新 刻画 数据 挖掘 问题 的 实质 。 





图 16-1 CRISP 数据 挖掘 框架 


图 16-2 中 提供 的 数据 挖掘 过 程 是 一 组 通用 的 步骤 ， 主 要 是 业务 和 算法 ， 但 与 数据 挖掘 工具 无 和 天 。 涉 及 数据 挖掘 的 过 程 的 基 
本 目标 是 分 析 问 题 。 现 在 的 问题 可 能 是 客户 分 群 、 预 测 气 候 模 式 或 简单 的 数据 探索 。 用 于 解决 业务 问题 的 算法 可 以 是 自动 聚 类 或 
人 工 智能 神经 网 络 。 用 于 开发 和 实现 数据 挖掘 算法 的 软件 工具 都 可 以 对 算法 进行 定制 化 ， 如 IBM SPSS、SAS、R 或 RapidMiner 
等 ， 不 胜 枚 举 。 


1. 先 验 知识 
数据 准备 2. 数据 准备 


数据 训练 利用 算法 建 模 
3. 建 模 
数据 测试 模型 应 用 与 效果 评估 


4 应 用 
知识 产 出 及 应 用 5. 知识 产 出 


图 16-2 ”数据 挖掘 过 程 


数据 挖掘 ， 特 别 是 在 大 数据 的 场景 下 ， 在 过 去 几 年 中 体现 出 其 重要 性 。 也 许 数据 挖掘 中 最 瞩目 和 讨论 最 充分 的 部 分 是 第 三 
步 : 建 模 。 它 涉及 构建 代表 性 模型 ， 这 类 模型 可 从 样本 数据 集 推导 ， 并 且 可 用 于 预测 (预测 建 模 ) 或 描述 数据 中 的 基本 模式 ( 描 
述 性 或 解释 性 建 模 ) 。 正 因为 如 此 ， 在 这 一 步 中 有 大 量 的 学 术 和 商业 研究 。 我 们 特别 强调 应 将 数据 挖掘 视 为 端 到 端 、 多 步骤 、 和 返 
代 的 过 程 ， 而 不 仅仅 是 模型 的 构建 。 经 验 丰 富 的 数据 挖掘 从 业者 可 以 证 明 ， 整 个 数据 挖掘 过 程 中 最 耗 时 的 部 分 不 是 模型 构建 部 
分 ， 而 是 数据 的 准备 ， 其 次 是 数据 和 业务 理解 。 市 场 上 有 许多 数据 挖掘 工具 (包括 开源 的 和 商业 的 ) 可 以 自动 完成 模型 构建 。 最 
常用 的 工具 是 RapidMiner、R、Weka、SAS、SPSS、Oracle Data Miner、Salford、Statistica 等 。 提 出 正确 的 业务 问题 、 深 
入 了 解 业务 、 获 取 和 准备 数据 挖掘 任务 的 数据 、 不 要 过 多 考虑 实施 细节 、 从 数据 挖掘 过 程 中 获得 知识 ， 仍 然 是 数据 挖掘 过 程 成 功 
的 关键 。 


让 我 们 开始 第 1 步 : 构建 数据 挖掘 问题 和 理解 业务 场景 。 


16.1 ” 先 验 知识 


先 验 知识 是 指 对 于 某 一 主题 已 知 的 信息 。 数 据 挖掘 的 目标 不 是 孤立 出 现 的 ， 它 总 是 在 现 有 主题 和 已 知 的 上 下 文 信息 的 基础 上 
发 展 。 数 据 挖掘 过 程 中 的 先 验 知识 有 助 于 定义 我 们 正在 解决 的 问题 ， 例 如 ， 如 何 适 应 业务 环境 ， 以 及 我 们 需要 哪些 数据 来 解决 问 


太 人 。 


1. 目 标 


数据 挖掘 过 程 从 分 析 需 求 、 问 题 或 业务 目标 开始 ， 这 可 能 是 数据 挖掘 过 程 中 最 重要 的 一 步 。 没 有 一 个 明确 定义 的 问题 陈述 ， 
就 不 可 能 提出 正确 的 数据 集 并 选择 正确 的 数据 挖掘 算法 。 即 使 数据 挖掘 过 程 是 一 个 顺序 过 程 ， 通 常 也 要 回 到 前 面 的 步骤 并 修改 假 
设 、 方 法 和 策略 。 必 须 确 保 整个 过 程 的 目标 是 正确 的 ， 即 使 进行 的 是 探索 性 数据 挖掘 。 


我 们 将 使 用 一 个 假设 的 例子 来 解释 数据 挖掘 过 程 。 假 设 我 们 从 事 消费 贷款 业务 ， 为 能 够 提供 资产 抵押 品 (如 房屋 或 汽车 ) 的 
个 人 提供 贷款 。 贷 款 利率 取决 于 一 系列 变量 ， 如 中 央 银 行 确定 的 当前 利率 ， 借 款 人 的 信用 评分 、 收 入 水 平 、 房 屋 价 值 、 初 始 存 款 
(预付 款 ) 金额 ， 借 款 人 的 流动 资产 和 负债 等 。 这 里 的 关键 因素 是 贷款 人 是 否 能 看 到 足够 的 回报 (贷款 利息 ) ， 是 否 值得 冒失 去 
本 金 的 风险 (借款 人 对 贷款 的 违约 ) 。 对 于 个 案 来 说 ， 贷 款 的 违约 状态 是 一 个 布尔 值 ， 即 在 贷款 期 间 要 么 违约 ， 要 么 不 违约 。 但 
是 ,在 一 组 成 干 上 万 的 借款 人 中 ， 我 们 可 以 找到 违约 率 个 连续 数字 变量 ， 表 示 贷 款 违约 的 借款 人 的 百分比 。 与 借款 人 相 
关 的 所 有 变量 ， 如 信用 评分 、 收 入 、 当 前 负债 情况 等 ， 用 于 评估 相关 人 群 的 违约 风险 ， 并 基于 此 来 确定 贷款 的 利率 。 这 个 假设 案 
例 的 业务 目标 是 : 如 果 我 们 知道 过 去 在 某 一 信用 评分 范围 内 的 借款 人 享有 的 利率 ， 我 们 可 以 预测 新 借款 人 享有 的 利率 吗 ? 





2. 主 题 领域 


数据 挖掘 的 过 程 通 过 暴露 属性 之 间 的 关系 来 揭示 数据 集中 的 隐藏 模式 。 但 问题 是 它 发 现 了 很 多 模式 ， 假 信号 是 该 过 程 中 的 主 
要 问题 。 这 就 需要 数据 挖掘 从 业者 筛选 那些 能 够 解答 目标 问题 的 有 效 的 和 相关 的 模式 。 因 此 ， 必 须知 道 主 题 、 上 下 文 和 生成 数据 
的 业务 流程 。 











借贷 是 最 古 者、 最 普遍 和 最 复杂 的 业务 之 一 。 如 果 数 据 挖掘 目标 是 预测 利率 ， 那 么 重要 的 是 要 弄 明白 以 下 问题 : 贷款 业务 是 
如 何 运作 的 ?为 什么 预测 利率 很 关键 ”一 旦 知道 预测 的 利率 我 们 可 以 做 什么 ”从 借款 人 那里 可 以 收集 什么 样 的 数据 ”什么 样 的 数 
据 出 于 法 规 的 原因 不 能 收集 ”可 能 影响 利率 的 其 他 外 部 因素 有 哪些 ”我 们 如 何 验证 结果 的 有 效 性 ”等 等 。 了 解 当 前 模型 和 商业 实 
践 可 以 黄 定 基础 并 建立 已 知 知识 库 ; 而 分 析 和 对 数据 的 挖掘 则 能 够 基于 现 有 知识 构建 新 的 知识 。 


3 .数据 


与 主题 领域 中 的 先 验 知识 类 似 ， 在 数据 中 也 存在 先 验 知识 。 数 据 通 常 作为 典型 企业 中 业务 流程 的 一 部 分 收集 ， 了 解数 据 如 何 
收集 、 人 存储 、 转 换 、 报 告 和 使 用 对 数据 挖掘 过 程 至 天 重要 。 该 步骤 考虑 了 可 用 于 回答 业务 问题 的 所 有 数据 ， 如 果 有 必要 ， 应 考虑 
哪些 数据 需要 从 数据 源 采集 。 有 相当 多 的 因素 要 考虑 : 数据 的 质量 ， 数 据 的 数量 ， 数 据 的 可 用 性 ， 当 数据 不 可 用 时 会 发 生 什 么 ? 
缺少 数据 要 怎么 办 ”等 等 。 这 个 步骤 的 目的 是 构造 出 一 个 数据 集 ， 对 它 进行 挖掘 并 回答 业务 问题 。 关 键 是 要 认识 到 模型 的 创建 只 
能 从 数据 中 来 。 


对 于 贷款 这 个 示例 ， 我 们 组 合 了 一 个 包含 三 个 属性 的 10 个 数据 点 的 人 工 数据 集 : 标识 符 、 信 用 评分 和 利率 。 首 先 ， 让 我 们 
来 看 看 数据 挖掘 过 程 中 使 用 的 一 些 术语 ， 以 用 于 描述 数据 。 


. 数据 集 (实例 集 ) 是 具有 良好 结构 定义 的 数据 集合 。 表 16-1 显 示 了 一 个 数据 集 ， 它 有 一 个 定义 良好 的 结构 ， 其 中 包含 10 行 
和 3 列 以 及 列 标题 。 


数据 点 (记录 、 数 据 对 象 或 实例 ) 是 数据 集中 的 单个 实例 。 表 16-1 中 的 每 一 行 都 是 一 个 数据 点 。 每 个 实例 包含 与 数据 集 相 
同 的 结构 。 


表 16-1 数据 集 


昔 款 人 ID 利率 
01 5.70% 
02 5.90% 
03 7.00% 
04 6.50% 
05 5.70% 











- 属性 〈 有 要素 、 输 入 、 维 度 、 变 量 或 预测 变量 ) 是 数据 集 的 单个 属性 。 表 16-1 中 的 每 一 列 都 是 一 个 属性 。 属 性 可 以 是 数字 、 
类 别 、 日 期 时 间 、 文 本 或 布尔 数据 类 型 。 在 这 个 例子 中 ， 信 用 评分 和 利率 是 数字 属性 。 


` 标签 (类 标签 、 输 出 、 预 测 、 目 标 、 响 应 ) 是 需要 基于 所 有 输入 属性 来 预测 的 特殊 属性 。 在 表 16-1 中 ， 利 率 是 输出 变量 。 


标识 符 是 用 于 定位 或 提供 上 下 文 到 个 别 记 录 的 特殊 属性 。 例 如 ， 公 共 属 性 (如 姓名 、 账 号 、 员 工 ID) 是 标识 符 属 性 。 标 
识 符 通常 用 作 组 合 多 个 数据 集 的 查找 键 ， 它 们 不 包含 适合 于 构建 数据 挖掘 模型 的 信息 ， 因 此 应 该 被 排除 在 实际 建 模 步骤 之 外 。 在 


表 16-1 中 ， 借 款 人 ID 是 标识 符 。 
4. 因 果 关 系 对 比 关 联 关 系 


让 我 们 反 转 预测 目标 : 根据 表 16-1 中 的 数据 ， 我 们 可 以 根据 利率 预测 借款 人 的 信用 评分 吗 ” 答 案 是 肯定 的 ， 但 这 没有 商业 
意义 。 从 现 有 的 领域 专业 知识 ， 我 们 知道 信用 评分 影响 贷款 利率 。 基 于 利率 反 转 的 因果 关系 预测 信用 评分 ， 这 个 问题 也 暴露 了 模 
型 构建 的 天 键 方面 之 一 : 输入 和 输出 属性 之 间 的 相关 性 不 保证 因果 关系 。 因 此 ， 使 用 现 有 的 领域 和 数据 知识 来 正确 地 构建 数据 挖 
掘 问题 是 非常 重要 的 。 在 这 个 数据 挖掘 示例 中 ， 我 们 将 根据 从 表 16-1 中 的 已 知 数据 中 学 习 的 模式 来 预测 未 知 利率 的 新 借款 人 的 
利率 ( 表 16-2) 。 


表 16-2 利率 未 知 时 的 数据 


音 款 人 ID 
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16.2 ”数据 准备 


准备 适合 数据 挖掘 任务 的 数据 集 是 数据 挖掘 过 程 中 最 耗 时 的 部 分 。 很 少 有 数据 以 数据 挖掘 算法 所 需 的 形式 提供 ， 大 多 数 数据 
挖掘 算法 需要 以 表格 格式 结构 化 数据 ， 其 中 “记录 ”在 行 中 ，“ 属 性 ”在 列 中 。 如 果 数 据 是 其 他 格式 ， 那 么 需要 通过 应 用 旋转 或 
转 置 函 数 来 转换 数据 ， 例 如 ， 将 数据 调整 为 所 需 的 结构 。 如 果 有 数据 不 正确 或 缺少 值 穆 么 办 ?” 例 如， 在 医院 健康 记录 中 ， 如 果 患 
者 的 身高 字段 显示 为 1.7 厘 米 则 显然 是 错误 的 ， 而 有 些 记 录 可 能 缺少 身高 信息 而 留 空 。 以 下 是 在 数据 准备 阶段 执行 的 一 些 活动 ， 
以 及 常见 的 挑战 和 缓解 策略 。 


1 .数据 探索 


数据 准备 从 对 数据 的 深入 探索 开始 ， 并 获得 对 数据 集 的 更 多 理解 。 数 据 探索 也 称 为 探索 性 数据 分 析 (EDA) ， 它 提供 了 一 套 
简单 的 工具 ， 以 实现 对 数据 的 基本 了 解 。 基 本 探索 方法 涉及 描述 性 统计 和 数据 可 视 化 。 基 本 探索 可 以 暴露 数据 的 结构 、 值 的 分 


布 、 极 值 的 存在 以 及 突出 数据 集 内 的 相互 关系 。 每 个 属性 的 平均 值 、 中 值 、 模 式 、 标 准 偏差 和 范围 的 描述 性 统计 数据 提供 了 数据 
分 布 的 天 键 特征 的 易于 读 取 的 摘要 。 另 一 方面 ， 数 据点 的 视图 提供 了 对 整合 成 一 个 图 表 的 所 有 数据 点 的 即时 掌握 。 图 16-3 显 示 
了 信用 评分 与 贷款 利率 的 散 点 图 ， 我 们 可 以 观察 到 ， 随 着 信用 评分 的 增加 ， 利 率 下 降 。 一 般 来 说 ， 用 于 回答 业务 问题 的 数据 集 必 
须 在 应 用 算法 和 创建 模型 之 前 进行 分 析 、 准 备 和 转换 。 


| ?| 


7.00% 


信用 评分 
图 16-3 ”利率 数据 的 散 点 图 


2 数据 质量 


在 收集 、 处 理 和 存储 数据 的 任何 地 方 ， 数 据 质量 都 是 一 个 持续 关注 的 问题 。 在 用 作 示 例 的 数据 集 ( 表 16-1) 中 ， 我 们 如 何 
知道 信用 评分 和 利率 数据 是 否 准确 ? 如 果 信 用 评分 的 记录 值 为 9000 (超出 理论 限制 ) 或 存在 数据 输入 错误 ,该 怎么 办 ? 数据 中 的 
这 些 误差 将 影响 模型 的 代表 性 。 机 构 使 用 数据 清理 和 转换 技术 来 提高 和 管理 数据 的 质量 ， 并 将 其 存储 在 名 为 数据 仓库 的 公司 级 的 
存储 库 中 。 来 自 维 护 良 好 的 数据 仓库 的 数据 具有 更 高 的 质量 ， 因 为 存在 恰当 的 控制 以 确保 新 数据 和 现 有 数据 的 精确 性 。 数 据 清理 
的 实践 包括 消除 重复 记录 、 隔 离 超出 边界 的 异常 值 记录 、 属 性 值 的 标准 化 、 缺 失 值 的 替换 等 。 无 论 如 何 ， 除 了 使 用 先 验 知识 和 业 
务 知识 之 外 ， 在 建 模 前 使 用 数据 探索 技术 来 保证 数据 具有 一 定 质量 是 至 关 重 要 的 。 


3. 缺 失 的 值 


最 常见 的 数据 质量 问题 之 一 是 某 些 记录 缺少 属性 值 。 例 如 ， 信 用 评分 可 能 在 其 中 一 个 记录 中 丢失 。 有 几 种 不 同 的 缓解 方法 来 
处 理 这 个 问题 ， 但 每 种 方法 都 有 利 浆 。 管 理 缺 失 值 的 第 一 步 是 理解 值 去 失 的 原因 。 跟 踪 数 据 的 世系 可 以 识别 出 数据 获取 中 的 系统 
问题 、 数 据 转换 中 的 错误 ， 以 及 或 许 存 在 用 户 还 不 能 理解 的 现象 。 知 道 缺 失 值 的 来 源 通常 会 指导 使 用 何 种 缓解 方法 。 我 们 可 以 用 
一 系列 人 工 数据 来 著 换 缺失 值 ， 以 便 管 理 对 数据 挖掘 中 后 续 步 骤 的 边际 影响 。 缺 失 的 信用 评分 可 以 用 从 数据 集 导出 的 信用 评分 


(平均 值 、 最 小 值 或 最 大 值 ， 取 决 于 属性 的 特性 ) 奉 换 。 如 果 缺 失 值 完全 随机 出 现 并 且 出 现 频率 非常 少 ， 则 此 方法 很 有 用 。 如 果 
不 这 样 ， 则 具有 丢失 数据 的 属性 的 分 布 将 被 扭曲 。 或 者 ， 为 了 构建 代表 性 模型 ， 我 们 可 以 忽略 所 有 具有 缺失 值 的 数据 记录 或 具有 
差 的 数据 质量 的 记录 。 这 个 方法 减少 了 数据 集 的 大 小 。 一 些 数据 挖掘 算法 善于 处 理 具有 缺失 值 的 记录 ， 而 另 一些 数 据 挖 掘 算法 期 
望 在 建立 和 应 用 模型 之 前 通过 数据 准备 步骤 处 理 这 种 问题 。 例 如 ， 用 于 分 类 任务 的 k- 最 近邻 (kK-NN) 算法 通常 对 于 缺失 值 是 鲁 
棒 的 。 用 于 分 类 任务 的 神经 网 络 模型 对 于 缺失 的 属性 不 能 很 好 地 执行 ， 因 此 数据 准备 步骤 对 于 开发 神经 网 络 模型 是 必要 的 。 





4 数据 类 型 及 转换 


数据 集中 的 属性 可 以 是 不 同类 型 的 ， 例 如 连续 数字 (利率 ) 、 整 数 数字 (信用 评分 ) 或 分 类 。 在 一 些 数据 集中 ， 信 用 评分 可 
表示 为 序数 或 分 类 ( 差 、 好 、 优 ) 。 不 同 的 数据 挖掘 算法 对 输入 的 数据 类 型 施加 不 同 的 限制 。 如 果 我 们 要 构建 的 模型 是 一 个 简单 
的 线性 回归 模型 ， 输 入 属性 需要 是 数字 。 如 果 可 用 的 数据 是 分 类 的 ， 则 需要 将 其 转换 为 连续 数字 属性 。 有 几 种 方法 可 用 于 将 分 类 
属性 转换 为 数字 属性 。 例 如 ， 我 们 可 以 为 每 个 类 别 编码 特定 的 数字 (例如 ， 信 用 差 =400， 信 用 好 =600， 信 用 极 好 =700， 等 
等 ) 。 类 似 地 ， 数 值 可 以 通过 称 为 binning 的 技术 转换 为 分 类 数据 类 型 ， 其 中 为 每 个 类 别 指定 值 的 范围 (例如 ，low= 
[400，500]) 。 


5. 转 换 


在 一 些 数据 挖掘 算法 如 k-NN 中 ， 输 入 属性 预期 是 数值 和 归 一 化 的 ， 因 为 算法 比较 不 同属 性 的 值 并 计算 数据 点 之 间 的 距离 。 
重要 的 是 要 确保 一 个 特定 属性 不 会 因为 值 较 大 或 它 是 以 较 小 的 单位 计量 而 支配 距离 结果 。 例 如 ， 考 虑 收入 (以 干 美元 计 ) 和 信用 
评分 (以 百 计 ) 。 距 离 计算 将 始终 由 收入 的 轻微 变化 支配 。 一 个 解决 方案 是 通过 标准 化 或 规范 化 将 收入 和 信用 评分 范围 从 0 到 1 
转换 为 更 均匀 的 标 度 。 这 样 ， 我 们 可 以 在 不 同 单位 的 两 个 不 同属 性 之 间 进 行 一 致 的 比较 。 然 而 ， 异 常 值 的 存在 可 能 会 担 曲 归 一 化 
的 结果 。 


在 一 些 数据 挖掘 任务 中 ， 有 必要 减少 属性 的 数量 ， 例 如 ， 主 成 分 分 析 (PCA) 的 统计 技术 将 属性 减少 为 几 个 关键 或 主要 属 
性 。 少 数 算法 可 能 不 期 望 出 现 高 度 相关 的 多 个 属性 ， 例 如 ， 年 度 收入 和 税收 都 是 高 度 相关 的 ， 因 此 我 们 可 能 需要 删除 其 中 一 个 属 


根据 定义 ， 异 常 值 是 数据 集中 的 异常 。 异 常 值 可 能 是 合理 的 (如 收入 在 数 十 亿 元 ) ， 也 可 能 是 错误 的 (如 人 的 身高 为 1.73 厘 
米 ) 。 无 论 如 何 ， 异 常 值 的 存在 需要 被 理解 ， 并 需要 特殊 处 理 。 创 建 代 表 性 模型 的 目的 是 推广 数据 中 的 模式 或 天 系 ， 而 异常 值 的 
存在 使 得 模型 倾斜 。 检 测 异 常 值 还 可 能 是 一 些 数据 挖掘 应 用 程序 的 主要 目的 ， 如 欺诈 检测 和 入 侵 检测 。 


7. 特 征 选择 


表 16-1 中 所 示 的 示例 数据 集 具有 一 个 属性 或 特征 (信用 评分 ) 和 一 个 标签 (利率 ) 。 在 实践 中 ， 许 多 数据 挖掘 问题 涉及 具 
有 几 百 到 几 千 个 属性 的 数据 集 。 在 文本 挖掘 应 用 程序 中 ， 文 档 中 的 每 个 不 同 的 单词 都 被 认为 是 数据 集中 的 一 个 属性 。 因 此 ， 在 这 
个 应 用 中 使 用 的 数据 集 包含 数 干 个 属性 。 不 是 所 有 的 属性 在 预测 期 望 的 目标 值 方面 具有 同等 的 重要 性 或 价值 。 一 些 属 性 可 能 彼此 
高 度 相关 ， 如 年 度 收入 和 支付 的 税收 。 数 据 集中 大 量 属性 的 存在 显著 增加 了 模型 的 复杂 性 ， 并 且 由 于 所 谓 “维度 的 诅 台 ”， 可 能 
降低 模型 的 性 能 。 通 常 ， 在 数据 挖掘 中 需要 呈现 更 详细 的 信息 ， 因 为 发 现 数据 模式 是 使 用 数据 挖掘 技术 的 吸引 力 之 一 。 但 是 ， 随 
着 数据 维 数 增 加 ， 数 据 在 高 维 空间 中 变 得 稀疏 ， 这 降低 了 模型 的 可 靠 性 ， 特 别 是 在 聚 类 和 分 类 的 情况 下 。 





减少 属性 的 数量 而 不 会 显著 损失 模型 的 性 能 ， 被 称 为 特征 选择 。 减 少数 据 集中 的 属性 数量 导致 更 简化 的 模型 并 且 有 助 于 合成 
对 模型 的 更 有 效 的 解释 。 


8. 数 据 抽样 


抽样 是 选择 子 集 作为 原始 数据 集 的 表示 以 用 于 数据 分 析 或 建 模 的 过 程 。 样 本 数据 用 作 具 有 类 似 属性 (例如 类 似 平均 值 ) 的 原 
始 数 据 集 的 代表 。 抽 样 减少 了 需要 为 分 析 和 建 模 进 行 处 理 的 数据 量 。 在 大 多 数 情况 下 ， 为 了 获得 洞察 力 ， 从 数据 中 提取 信息 并 构 
建 代 表 性 的 预测 模型 ， 就 足以 处 理 样 本 。 采 样 加 速 了 建 模 的 构建 过 程 。 理 论 上 ， 由 抽样 引入 的 误差 将 影响 模型 的 相关 性 ， 但 其 益 


在 预测 分 析 应 用 程序 的 构建 过 程 中 ， 有 必要 将 数据 集 分 段 为 训练 和 测试 样本 。 根 据 应 用 ， 使 用 简单 采样 或 分 类 标签 特定 采样 
法 从 原始 数据 集 采样 训练 数据 集 。 让 我 们 考虑 用 于 预测 数据 集中 的 异常 (例如 ， 预 测 欺 诈 性 信用 卡 交 易 ) 的 用 例 。 


异常 检测 的 目的 是 对 数据 中 的 异常 值 进 行 分 类 。 这 些 是 罕见 的 事件 ， 通 常 示例 数据 没有 很 多 异常 类 的 示例 。 分 层 抽样 是 一 种 
抽样 过 程 ， 其 中 每 个 类 在 样本 中 均等 地 表示 ， 这 允许 模型 关注 每 个 类 的 模式 之 间 的 差异 。 在 分 类 应 用 中 ， 使 用 抽样 创建 多 个 基本 
模型 ， 每 个 基本 模型 使 用 不 同 的 采样 训练 数据 集合 来 开发 。 这 些 基 本 模型 用 于 构建 一 个 元 模型 ， 称 为 整体 模型 ， 其 中 错误 率 与 基 
础 模型 相 比 得 到 改善 。 


16.3 建 模 


模型 是 数据 及 其 在 给 定数 据 集中 的 关系 的 抽象 表示 。 一 个 简单 的 声明 ， 如 “抵押 贷款 利率 随 着 信用 评分 的 增加 而 减少 ”是 一 
个 模型 ， 昌 然 没有 足够 的 定量 信息 在 生产 场景 中 使 用 ， 但 它 提供 了 定向 信息 来 抽取 信用 评分 和 利率 之 间 的 关系 。 


目前 有 几 百 个 数据 挖掘 算法 来 自 统计 、 机 器 学 习 、 模 式 识别 和 计算 机 科学 知识 体系 。 幸 运 的 是 ， 在 市 场 上 有 许多 可 行 的 商业 
和 开源 预测 分 析 和 数据 挖掘 工具 来 实现 这 些 算法 。 作 为 一 个 数据 挖 握 从 业者 ， 我 们 需要 关注 的 是 对 算法 的 概述 。 我 们 想 知道 它 是 
如 何 工作 的 ， 并 基于 我 们 对 业务 和 数据 的 理解 来 确定 需要 配置 哪些 参数 。 数 据 挖掘 模型 可 以 分 为 以 下 类 别 : 分 类 、 回 归 、 关 联 分 
析 、 聚 类 、 异 常 值 或 异常 检测 。 每 个 类 别 有 几 十 种 不 同 的 算法 ， 同 时 每 个 类 别 都 采取 稍微 不 同 的 方法 来 解决 手头 的 问题 。 分 类 和 
回归 任务 是 预测 技术 ， 因 为 它们 基于 一 个 或 多 个 输入 变量 预测 结果 变量 。 预 测算 法 需要 一 个 已 知 的 先 验 数据 集 来 “学 习 ” 模 型 。 
图 16-4 显 示 了 预测 数据 挖掘 建 模 阶 段 的 步骤 。 关 联 分 析 和 聚 类 是 描述 性 数据 挖掘 技术 ， 其 中 没有 要 预测 的 目标 变量 ， 因 此 没有 
测试 数据 集 。 然 而 ， 预 测 模型 和 描述 模型 都 具有 评估 步骤 。 如 果 已 知 数据 可 用 ， 异 常 检测 可 以 是 预测 的 ,或 者 如 果 已 知 训练 数据 
不 可 用 ， 则 使 用 无 监督 技术 。 


训练 数据 


测试 数据 





图 16-4 ”预测 数据 挖 据 建 模 步 又 


1. 训 练 和 测试 数据 集合 


为 了 开发 一 个 稳定 的 模型 ,我 们 需要 使 用 一 个 预先 准备 的 数据 集 ， 其 中 我 们 知道 所 有 的 属性 ， 包 括 目标 类 属性 。 这 称 为 训练 
数据 集 ， 它 用 于 创建 模型 。 我 们 还 需要 使 用 称 为 测试 数据 集 或 验证 数据 集 的 另 一 个 已 知 数据 集 ， 以 检查 所 创建 模型 的 有 效 性 。 为 
了 实施 这 个 过 程 ， 可 以 将 总 体 已 知 的 数据 集 分 成 训练 数据 集 和 测试 数据 集 。 一 个 标准 的 经 验 法 则 是 三 分 之 二 的 数据 去 训练 ， 三 分 
之 一 去 测试 。 另 外 还 有 更 复杂 的 方法 ， 其 中 通过 随机 抽样 和 蔡 换 来 选择 训练 记录 。 表 16-3 和 表 16-4 显 示 了 基于 表 16-1 示 例 数据 
集 的 训练 和 测试 数据 的 随机 拆 分 。 图 16-5 显 示 了 标记 训练 和 测试 数据 集 的 整个 示例 数据 集 的 散 点 图 。 


表 16-3 训练 数据 集 


借 球 人 ID | 信用 评分 (X)| 利率 (7) 


01 500 7.31% 
02 ”60 | 670% 
03 5.95% 
05 5.40% 
06 5.70% 
08 550 7.00% 
09 650 6.50% 


表 16-4 测试 数据 集 


借款 人 ID | 信用 评分 (X)| 利率 (7) 


04 700 6.40% 

07 7350 3.90% 

10 825 3.70% 
2 算法 和 建 模 技术 


业务 问题 和 数据 可 用 性 决定 了 需要 使 用 什么 数据 挖 握 类 别 关联、 分类、 回归 等 ) 。 数 据 挖掘 从 业者 确定 所 选 类 别 内 的 适当 
的 数据 挖掘 算法 。 例 如 ， 在 分 类 中 ， 可 以 选择 以 下 任何 算法 : 决策 树 、 规 则 归纳 、 神 经 网 络 、 贝 叶 斯 模型 、k-NN 等 。 使 用 多 个 
数据 挖掘 类 别 和 算法 来 解决 业务 问题 并 不 罕见 。 


辣 i 
53.00% 
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图 16-5 训练 和 测试 数据 的 散 点 图 


利率 预测 被 认为 是 一 个 回归 问题 。 我 们 将 使 用 一 个 简单 的 线性 回归 技术 来 建 模 数据 集 ， 并 推广 信用 评分 和 利率 之 间 的 天 系 。 
具有 10 个 记录 的 数据 集 可 以 分 成 训练 和 测试 集 。 七 个 记录 的 训练 集 将 用 于 创建 模型 ， 并 且 三 个 记录 的 测试 集 将 用 于 评估 模型 的 


有 效 性 。 
简单 线性 回归 可 以 拟 合 为 通过 散 点 图 中 数据 点 的 直线 (图 16-6) 。 直 线 必 须 以 从 数据 点 到 线 的 平方 距离 的 总 和 最 小 的 方式 


构建 。 通 常 ， 直 线 可 以 表示 为 : 





信用 评分 


图 16-6 ”回归 模型 


y=axt+b 


其 中 y 是 输出 或 因 变 量 ，x 是 输入 或 独立 变量 ，b 是 y 截 距 ，a 是 x 的 系数 。 我 们 可 以 找到 a 和 b 的 值 ， 以 便 最 小 化 平方 残 差 的 
和 。 


上 述 方程 中 所 示 的 直线 用 作 预 测 新 的 未 标记 数据 集 的 结果 的 模型 。 对 于 利率 数据 集 ， 我 们 计算 了 利率 的 简单 线性 回归 : 
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6x 信用 评分 。 
1000 


下 二 | 寺 


利率 =10% 一 


使 用 这 个 模型 ， 我 们 可 以 计算 借款 人 指定 信用 评分 的 利率 。 线 性 回归 是 最 简单 的 模型 之 一 ， 我 们 可 以 以 此 为 基础 开始 模型 构 
建 。 实 际 上 ， 利 率 计算 涉及 几 十 个 输入 变量 ， 并 且 还 需 考虑 变量 之 间 的 非 线 性 关系。 


3. 模 型 的 评估 


以 等 式 形式 生成 的 模型 被 推广 ， 并 从 7 个 训练 记录 中 合成 。 我 们 可 以 用 等 式 中 的 信用 评分 代替 ， 并 用 模型 估计 7 个 训练 记录 
中 每 一 个 的 利率 。 估 计 可 能 不 与 训练 记录 中 的 值 完全 相同 。 我 们 不 希望 模型 记 住 和 输出 训练 记录 中 的 相同 值 。 存 储 训练 数据 的 模 
型 的 现象 称 为 过 度 拟 合 。 过 度 拟 合 的 模型 只 记录 训练 记录 ， 并 且 将 在 实际 生产 中 劣化 。 我 们 希望 模型 推广 或 学 习 信用 评分 和 利率 
之 间 的 关系。 为 了 评估 这 种 关系 ， 使 用 以 前 在 构建 模型 中 未 使 用 的 验证 或 测试 数据 集 进 行 评估 ， 如 表 16-5 所 示 。 


表 16-5 测试 数据 集 的 评估 


蕴 款 人 ID 模型 预测 的 利率 ( Y ) | ”模型 误差 


表 16-5 提 供 了 已 知 利率 的 三 个 测试 记录 ， 这 些 记录 不 用 于 构建 模型 。 可 以 使 用 模型 将 利率 的 实际 值 与 预测 值 进行 比较 ， 从 
而 计算 预测 误差 。 只 要 错误 是 可 以 接受 的 ， 这 个 模型 可 以 用 于 部 署 。 误 差 率 可 用 于 将 此 模型 与 不 同 算法 开发 的 其 他 模型 比较 ， 如 
神经 网 络 或 贝 叶 斯 模型 等 。 





4. 集 成 建 模 


集成 建 模 是 这 样 一 个 过 程 : 创建 多 个 多 样 化 模型 ， 通 过 使 用 许多 不 同 的 建 模 算法 或 使 用 不 同 的 训练 数据 集 来 预测 结果 ， 然 后 
集成 模型 整合 每 个 基本 模型 的 预测 值 ， 从 而 推导 出 对 未 见 的 数据 的 一 次 最 终 预 测 。 使 用 集成 模型 的 动机 是 减少 预测 的 泛 化 误差 。 
只 要 基本 模型 是 多 样 和 独立 的 ， 当 使 用 整体 方法 时 ， 模 型 的 预测 误差 减 小 。 这 种 方法 寻求 群体 的 智慧 从 而 做 出 预测 。 即 使 集成 模 
型 在 模型 中 具有 多 个 基本 模型 ， 它 仍然 作为 单个 模型 来 执行 。 大 多 数 实际 的 数据 挖掘 解决 方案 都 在 使 用 集成 建 模 技术 。 


在 数据 挖掘 过 程 的 建 模 阶段 结束 时 ， 我 们 能 够 : (1) 分 析 业 务 问题 ; (2) 提供 与 回答 问题 相关 的 数据 ; (3) 选择 数据 挖 
掘 技术 来 回答 问题 ; (4) 选择 数据 挖掘 算法 并 准备 数据 以 适合 算法 ; (5) 将 数据 分 成 训练 和 测试 数据 集 ; 〈6) 从 训练 数据 集 
构建 广义 模型 ; (7) 测试 数据 集 。 该 模型 现在 可 以 用 于 基于 未 见 数据 的 输入 变量 来 预测 目标 变量 。 这 回答 了 关于 预测 的 业务 问 
题 。 现 在 ， 需 要 部 署 模型 ， 例 如 将 模型 集成 到 企业 的 生产 贷款 审批 流程 中 。 


16.4 应 用 


部 署 或 应 用 是 模型 变 为 生产 就 绪 或 “活跃 ”的 阶段 。 在 业务 应 用 中 ， 数 据 挖掘 的 结果 (预测 任务 的 模型 、 关 联 规则 或 聚 类 的 
学 习 框 架 ) 需要 被 整合 进 业务 流 程 中 一 通常 是 在 软件 应 用 程序 中 。 模 型 部 署 阶段 导致 一 些 关 键 指标 的 考量 ， 包 括 评 佑 模型 准 
备 、 技 术 集成 、 响 应 时 间 、 模 型 维护 和 整合 。 


1. 生 产 准备 


生产 准备 是 部 署 的 一 部 分 ， 它 确定 部 署 目标 所 需 的 关键 质量 。 让 我 们 考虑 两 个 不 同 的 用 例 : 确定 客户 是 否 有 资格 申请 某 商 业 
领先 机 构 的 贷款 账户 ， 以 及 为 某 企业 的 客户 进行 分 群 。 


消费 者 信用 审批 流程 是 一 个 实时 的 工作 。 通 过 面向 消费 者 的 网 站 或 通过 某 个 一 线 代理 使 用 的 专门 应 用 程序 ， 一 旦 潜在 客户 提 


供 了 相关 的 信息 ， 就 需要 实时 提供 信用 决策 和 条 款 。 它 被 视 为 竞争 优势 ， 可 以 提供 快速 决策 ， 同 时 也 为 客户 和 公司 的 利益 提供 准 
确 的 结果 。 决 策 模型 需要 从 客户 收集 数据 ， 集 成 第 三 方 数据 (如 信用 记录 ) ， 并 在 几 秒 钟 内 就 贷款 审批 和 条 款 做 出 决定 。 这 种 模 
型 部 署 中 的 关键 质量 是 实时 预测 。 


基于 与 公司 的 关系 来 做 客户 分 群 是 一 个 深思 熟 虑 的 过 程 ， 其 中 考虑 了 来 自 公司 中 的 多 个 部 门 的 各 种 交互 的 信号 。 基 于 这 些 模 
式 ， 类 似 的 客户 被 放 在 队列 中 ， 并 且 处 理 策略 被 精心 设计 以 最 好 地 吸引 顾客 。 对 于 此 应 用 程序 ， 批 量 处 理 (不 间断 地 从 各 个 部 门 
收集 数据 ) 被 集成 ， 并 且 整 体 客户 记录 被 分 段 。 这 个 应 用 程序 的 关键 质量 是 能 够 找到 客户 之 间 的 独特 模式 ， 而 不 是 模型 的 响应 时 
间 。 业 务 应 用 程序 在 数据 和 算法 的 可 访问 性 方面 告知 需要 在 数据 准备 和 建 模 步骤 中 做 出 选择 。 


2. 技 术 集 成 


最 可 能 的 情况 是 ， 某 种 数据 挖掘 软件 工具 (R、RapidMiner、SAS、SPSS 等 ) 将 被 用 于 创建 数据 挖掘 模型 。 数 据 挖掘 工具 
无 需 用 户 自己 编写 代码 来 实现 算法 ， 这 节省 了 大 量 的 时 间 ， 人 允许 分 析 人 员 专 注 于 数据 、 业 务 逻 辑 和 从 数据 中 探索 模式 。 由 数据 挖 
掘 工 具 创 建 的 模型 ， 可 以 通过 使 用 预测 模型 标记 语言 (PMML) (Guazzelli 等 人 ，2009) 或 调用 生产 应 用 程序 中 的 数据 挖掘 工 
有 具 来 移植 到 生产 应 用 程序 。PM ML 提供 了 一 种 便携 和 一 致 的 模型 描述 格式 ， 可 以 被 大 多 数 预测 分 析 和 数据 挖掘 工 具 读 取 。 这 提 
供 了 某 种 灵活 性 ， 人 允许 从 业者 使 用 一 个 工具 (例如 ，RapidMiner) 开发 模型 并 将 其 部 署 在 另 一 工具 (例如 SAS) 中 。PMML 标 
准 由 行业 领先 联盟 Data Mining Group 开发 和 维护 。 诸 如 简单 回归 、 决 策 树 和 用 于 预测 分 析 的 归纳 规则 的 模型 ， 可 以 简单 而 直 
接地 合并 到 业务 应 用 和 商业 智能 系统 中 。 因 为 这 些 模型 由 简单 的 方程 和 if-then 规 则 表示 ， 所 以 它们 可 以 容易 地 移植 到 大 多 数 编 


程 语言 中 。 
3. 响 应 时 间 


一 些 数据 挖掘 算法 (例如 k-NN) 易于 构建 ， 但 在 预测 目标 变量 方面 相当 缓慢 。 另 外 一 些 算法 (例如 决策 树 ) 需要 时 间 来 构 
建 ， 但 可 以 简化 为 几乎 编码 到 任何 应 用 程序 的 简单 规则 。 我 们 需要 权衡 生产 环境 下 的 响应 时 间 和 构建 时 间 。 在 需要 的 时 候 ， 如 果 
响应 时 间 不 能 被 业务 应 用 程序 接受 ， 则 需要 重新 考虑 建 模 。 预 测 的 质量 、 输 入 数据 的 可 访问 性 和 预测 的 响应 时 间 仍 然 是 业务 应 用 
中 最 重要 的 质量 因素 。 


4. 重 新 建 模 


模型 持续 相关 性 的 关键 标准 是 它 正 在 处 理 的 数据 集 的 代表 性 。 在 模型 部 署 之 后 ， 构 建 模 型 的 条 件 发 生变 化 是 相当 正常 的 。 例 
如 ， 信 用 评分 和 利率 之 间 的 关系 经 常 根据 当时 的 宏观 经 济 条 件 而 变化 。 因 此 ， 该 模型 需要 为 此 应 用 程序 频繁 更 新 。 可 以 使 用 新 的 
已 知 测试 数据 集 和 计算 错误 率 来 常规 地 测试 模型 的 有 效 性 。 如 果 错 误 率 超过 特定 阔 值 ， 那 么 我 们 可 以 重建 模型 并 重 做 部 署 。 创 建 
维护 计划 是 部 署 计划 的 天 键 部 分 ， 这 将 维持 一 个 有 生命 力 的 模型 。 


5. 同 化 


在 描述 数据 挖掘 应 用 程序 时 ， 将 模型 部 署 到 活动 系统 可 能 不 是 目标 。 挑 战 通 常 是 将 从 数据 挖掘 中 获得 的 知识 吸收 到 组 织 或 特 
定 应 用 程序 中 。 例 如 ， 目 标 可 以 是 在 客户 数据 库 中 找到 逻辑 集群 ， 使 得 可 以 向 每 个 客户 群 提供 单独 的 处 理 。 然 后 下 一 步 可 以 是 将 
新 客户 放 入 已 知 群集 中 的 一 个 分 类 中 。 天 联 分 析 则 提供 了 市 场 篮子 问题 的 解决 方案 ， 其 任务 是 找到 哪 两 个 产品 最 常 被 一 起 购买 。 
数据 挖掘 从 业者 面临 的 挑战 是 前 明 这 些 发 现 与 原始 业务 问题 的 相关 性 、 模 型 中 风险 的 量化 ， 以 及 对 业务 用 户 的 预期 业务 影响 。 商 
业 用 户 社区 融合 了 不 同 的 观点 、 不 同 的 量化 思维 方式 和 技巧 的 集合 。 并 不 是 每 个 人 都 知道 数据 挖掘 的 过 程 ， 以 及 它 能 做 什么 和 不 
能 做 什么 。 这 个 挑战 的 一 部 分 可 以 通过 关注 最 终结 果 和 它 所 知 信息 的 影响 来 解决 ， 而 不 是 通过 数据 挖掘 提取 信息 的 技术 过 程 。 理 
解 和 合理 化 这 些 任 务 的 结果 ， 最 终 可 能 导致 在 业务 流程 中 的 行动 。 


16.5 忆 结 


数据 挖掘 过 程 提供 了 从 数据 中 提取 重要 信息 的 框架 。 随 着 海量 人 存储、 广泛 收集 和 高 级 计算 范例 的 出 现 ， 我 们 掌握 的 数据 只 会 
增加 。 为 了 从 这 些 海量 数据 资产 中 提取 知识 ， 除 了 标准 时 间 序 列 报告 或 简单 的 统计 处 理 之 外 ， 我 们 还 需要 采用 数据 挖掘 算法 等 高 
级 方法 。 昌 然 诸 多 算法 可 以 提供 有 价值 的 知识 提取 能 力 ， 但 是 关键 依然 在 于 专业 的 分 析 人 员 ， 他 们 可 以 巧妙 地 应 用 正确 的 算法 并 
将 业务 问题 转换 为 数据 问题 。 数 据 挖 掘 与 任何 其 他 技术 一 样 ， 通 过 算法 及 其 参数 来 提供 解决 方案 的 选择 。 使 用 这 些 解决 方案 来 提 
取 正 确 的 信息 是 一 种 艺术 ， 这 可 以 被 开发 出 来 并 投入 实践 。 


数据 挖掘 过 程 从 先 验 知识 开始 ， 以 后 验 知识 结束 。 后 验 知识 是 在 数据 处 理 过 程 中 增加 的 关于 业务 的 洞察 。 与 任何 定量 分 析 一 
样 ， 数 据 挖掘 过 程 可 以 从 数据 集中 指出 虚假 的 不 相关 的 模式 。 不 是 所 有 发 现 的 模式 都 会 导致 知识 的 产生 。 再 次 强调 ， 这 依赖 于 从 
业者 史 除 不 相关 的 模式 并 识别 出 有 意义 的 信息 。 通 过 数据 挖掘 获得 的 信息 的 影响 可 以 在 实际 应 用 中 度量 。 通 过 数据 挖掘 过 程 获得 
的 信息 与 通过 基本 数据 分 析 对 数据 的 洞 见 是 有 区 别 的 。 最 后 ， 整 个 数据 挖掘 过 程 是 一 个 引发 正确 问题 并 指导 我 们 通过 正确 的 方法 
解决 业务 问题 的 框架 (Chapman 等 ，2000) 。 这 并 不 意味 着 它 被 用 作 一 组 必须 严格 遵循 的 规则 ， 而 是 作为 一 组 有 助 于 知识 发 现 
的 迭代 的 、 清 晰 的 步骤 。 
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没有 数据 支撑 的 观点 永远 只 不 过 是 观点 。 





William Edwards Deming 








在 没有 事实 作为 参考 以 前 ， 亡 下 猜测 是 一 个 很 可 怕 的 错误 。 直 党 错误 的 人 总 是 用 事实 去 套 自己 国有 的 论点 ， 而 不 是 按 正确 的 


方法 根据 得 到 的 事实 来 推导 结论 ， 看 它 能 否 吻合 已 得 到 的 事实 。 











Shetlock Holmes 


如 果 企业 想 从 大 数据 中 获得 商业 价值 ， 除 了 要 有 合适 的 技术 、 工 具 和 分 析 方 法 ， 正 确 的 组 织 文化 也 是 必 不 可 少 的。 本 节 主 要 
介绍 数据 驱动 文化 的 特点 。 


本 章 主 要 解决 两 个 核心 问题 : 
1) 对 于 一 个 组 织 而 言 ， 数 据 驱动 究竟 意味 着 什么 ? 
2) 一 个 组 织 如 何 拥有 数据 驱动 文化 ? 


许多 组 织 简单 地 认为 ， 只 要 他 们 能 够 获得 大 量 的 报告 或 是 丰富 的 数据 来 源 ， 他 们 就 是 数据 驱动 型 组 织 了 。 我 们 认为 ， 尽 管 这 
些 活动 是 数据 驱动 组 织 的 一 个 部 分 ， 但 是 从 根本 上 说 ， 他 们 所 做 的 工作 只 是 描述 性 和 后 瞻 性 的 。 他 们 只 不 过 是 在 陈述 已 经 发 生 了 
的 事实 ， 而 不 是 在 说 “应 该 怎么 做 ”。 因 此 ， 发 挥 的 作用 也 很 有 限 。 它 也 无 法 说 明 这 些 报告 和 数据 背后 究竟 发 生 了 些 什么。 如 果 
无 视 这 些 报告 和 数据 ， 那 么 领导 层 的 决策 将 会 仅 赁 个 人 喜好 进行 。 无 视 数 据 的 结果 是 ， 他 们 无 法 获得 任何 商业 价值 。 相 比 之 下 ， 


我 们 要 更 多 地 考虑 那些 具有 前 瞻 性 的 分 析 ， 例 如 建立 一 些 模型 以 达到 优化 广告 支出 ， 补 充 供 应 链 ， 或 是 减少 客户 流失 的 作用 。 如 
果 能 将 这 些 意见 付 诸 实践 ， 那 么 企业 将 会 具备 显著 的 提升 潜力 。 不 过 将 这 些 潜力 转变 为 现实 的 前 提 是 : 他 们 收集 的 数据 是 准确 并 
且 值 得 相信 的 ， 在 分 析 时 采用 了 正确 方法 ， 在 决策 时 考虑 到 了 这 些 观点 ， 并 采取 了 具体 的 措施 。 正 如 后 面 所 谈 到 的 ， 这 一 系列 的 
过 程 被 称 为 “分 析 价值 链 ”。 想 要 实现 数据 驱动 ， 数 据 和 观点 必须 贯穿 整个 价值 链 ， 只 有 这 样 才能 产生 结果 和 影响 。 


总 的 来 说 ， 本 章 是 围绕 着 价值 链 进行 思考 的 。 首 先是 关于 数据 本 身 ， 特 别 是 要 选择 正确 的 数据 源 ， 确 保 它 们 是 高 质量 、 可 信 
赖 的 。 价 值 链 的 下 一 步 就 是 分 析 。 你 需要 那些 具备 相应 技能 的 人 来 做 这 些 工 作 ， 获 得 有 影响 、 有 价值 的 观点 。 这 里 ， 我 们 特地 使 
用 “分 析 师 ”这 一 广义 词汇 来 涵盖 数据 分 析 师 、 数 据 科 学 家 和 分 析 组 织 中 的 其 他 成 员 。 之 所 以 这 样 定 义 ， 是 因为 我 们 认为 从 刚 毕 
业 的 数据 分 析 新 手 转变 为 “明星 ”数据 科学 家 的 过 程 中 ， 总 需要 去 从 事 某 个 形象 角色 。 我 们 将 介绍 如 何 成 就 一 个 优秀 的 分 析 师 ， 
如 何 提高 分 析 师 的 技能 ， 同 时 也 会 涉及 一 些 企业 的 层面 : 如 何 将 这 些 分 析 师 组 建成 一 个 团队 和 业务 部 门 。 而 价值 链 中 的 下 一 步 就 
是 : 利用 这 些 分 析 与 见解 做 出 决策 。 这 里 我 们 将 谈 到 : 什么 使 得 决策 变 得 困难 ， 以 及 如 何 进行 改进 。 


贯穿 所 有 章节 的 一 个 主旨 就 是 : 成 为 数据 驱动 型 企业 不 仅 需 要 数据 或 是 最 新 的 大 数据 工具 集 ， 还 需 具备 相应 的 企业 文化 。 文 
化 在 企业 的 目标 设 定 方面 占据 了 重要 的 地 位 ， 这 些 目标 期 望 包括 : 数据 的 大 众 化 水 平 能 达到 哪个 水 平 ? 如 何在 整个 组 织 中 使 用 和 
查看 数据 ? 将 数据 作为 战略 资产 投入 的 资源 与 培训 有 多 少 ? 


因此 ， 我 们 将 价值 链 各 个 步骤 中 所 涉及 的 内 容 整合 成 了 一 个 独立 的 文化 章节 。 之 后 的 一 个 章节 中 ， 我 们 将 会 谈 到 自 上 而 下 的 
数据 领导 ， 特 别 是 近期 新 增 的 两 个 高 管 角色 : 首席 数据 官 和 首席 分 析 官 。 不 过 ， 文 化 的 影响 也 可 以 是 自 下 而 上 的 。 因 此 ， 在 本 书 
谈 到 分 析 师 与 分 析 师 管理 经 理 时 ， 我 们 将 强调 他 们 能 够 做 什么 ， 才 能 最 大 限度 地 影响 整个 组 织 。 一 个 真正 的 数据 驱动 型 企业 应 该 
是 具备 数据 民主 性 的 ， 在 与 数据 和 数据 质量 相关 的 组 织 中 拥有 大 量 的 利益 相关 者 。 他 们 能 够 充分 利用 数据 做 出 基于 事实 的 决策 ， 
并 利用 数据 来 获得 竞争 优势 。 我 们 想 阐 述 的 一 般 性 观点 是 : 什么 是 数据 驱动 型 ， 什 么 不 是 数据 驱动 型 。 


在 此 ， 我们 需要 先 说 明 数 据 收集 和 访问 的 初始 先决 条 件 。 然 后 从 一 些 细节 方面 对 比 报 告 、 预 警 和 分 析 之 间 的 显著 差别 。 不 同 
类 型 的 预测 分 析 的 复杂 程度 也 各 不 相同 。 因 此 ， 我 们 将 从 “分 析 水 平 ”和 “分 析 成 熟 度 ”两 个 角度 去 讨论 这 些 类 型 ， 特 别 是 一 个 
成 熟 型 组 织 的 标志 应 该 是 什么 。 


我 们 先 回答 第 一 个 问题 : 对 于 一 个 企业 而 言 ， 数 据 驱 动 意味 着 什么 ? 


第 作 般 ” 构 贷 数 据 驱动 型 企业 


第 17 章 ”建立 数据 驱动 文化 


没有 数据 支撑 的 观点 永远 只 不 过 是 观点 。 





William Edwards Deming 





在 没有 事实 作为 参考 以 前 ， 记 下 猜测 是 一 个 很 可 怕 的 错误 。 直 觉 错 误 的 人 总 是 用 事实 去 套 自己 固有 的 论点 ， 而 不 是 按 正 确 的 
方法 根据 得 到 的 事实 来 推导 结论 ， 看 它 能 否 吻 合 已 得 到 的 事实 。 








Sherlock Holmes 


如 果 企业 想 从 大 数据 中 获得 商业 价值 ， 除 了 要 有 合适 的 技术 、 工 具 和 分 析 方 法 ， 正 确 的 组 织 文化 也 是 必 不 可 少 的。 本 节 主 要 
介绍 数据 驱动 文化 的 特点 。 


本 章 主 要 解决 两 个 核心 问题 : 
1) 对 于 一 个 组 织 而 言 ， 数 据 驱动 究竟 意味 着 什么 ? 
2) 一 个 组 织 如 何 拥有 数据 驱动 文化 ? 


许多 组 织 简单 地 认为 ， 只 要 他 们 能 够 获得 大 量 的 报告 或 是 丰富 的 数据 来 源 ， 他 们 就 是 数据 驱动 型 组 织 了 。 我 们 认为 ， 尽 管 这 
些 活动 是 数据 驱动 组 织 的 一 个 部 分 ， 但 是 从 根本 上 说 ， 他 们 所 做 的 工作 只 是 描述 性 和 后 瞻 性 的 。 他 们 只 不 过 是 在 陈述 已 经 发 生 了 
的 事实 ， 而 不 是 在 说 “应 该 怎么 做 ”。 因 此 ， 发 挥 的 作用 也 很 有 限 。 它 也 无 法 说 明 这 些 报告 和 数据 背后 究竟 发 生 了 些 什么 。 如 果 
无 视 这 些 报告 和 数据 ， 那 么 领导 层 的 决策 将 会 仅 赁 个 人 喜好 进行 。 无 视 数据 的 结果 是 ， 他 们 无 法 获得 任何 商业 价值 。 相 比 之 下 ， 
我 们 要 更 多 地 考虑 那些 具有 前 瞻 性 的 分 析 ， 例 如 建立 一 些 模型 以 达到 优化 广告 支出 ， 补 充 供应 链 ， 或 是 减少 客户 流失 的 作用 。 如 
果 能 将 这 些 意见 付 诸 实践 ， 那 么 企业 将 会 具备 显著 的 提升 潜力 。 不 过 将 这 些 潜力 转变 为 现实 的 前 提 是 : 他 们 收集 的 数据 是 准确 并 
且 值 得 相信 的 ， 在 分 析 时 采用 了 正确 方法 ， 在 决策 时 考虑 到 了 这 些 观点 ， 并 采取 了 具体 的 措施 。 正 如 后 面 所 谈 到 的 ， 这 一 系列 的 
过 程 被 称 为 “分 析 价 值 链 ”。 想 要 实现 数据 驱动 ， 数 据 和 观点 必须 贯穿 整个 价值 链 ， 只 有 这 样 才 能 产生 结果 和 影响 。 


总 的 来 说 ， 本 章 是 围绕 着 价值 链 进 行 思考 的 。 首 先是 关于 数据 本 身 ， 特 别 是 要 选择 正确 的 数据 源 ， 确 保 它们 是 高 质量 、 可 信 
赖 的 。 价 值 链 的 下 一 步 就 是 分 析 。 你 需要 那些 具备 相应 技能 的 人 来 做 这 些 工 作 ， 获 得 有 影响 、 有 价值 的 观点 。 这 里 ， 我 们 特地 使 
用 “分 析 师 ”这 一 广义 词汇 来 涵盖 数据 分 析 师 、 数 据 科 学 家 和 分 析 组 织 中 的 其 他 成 员 。 之 所 以 这 样 定义 ， 是 因为 我 们 认为 从 刚 毕 
业 的 数据 分 析 新 手 转变 为 “明星 ”数据 科学 家 的 过 程 中 ， 总 需要 去 从 事 某 个 形象 角色 。 我 们 将 介绍 如 何 成 就 一 个 优秀 的 分 析 师 ， 
如 何 提高 分 析 师 的 技能 ， 同 时 也 会 涉及 一 些 企业 的 层面 : 如 何 将 这 些 分 析 师 组 建成 一 个 团队 和 业务 部 门 。 而 价值 链 中 的 下 一 步 就 
是 : 利用 这 些 分 析 与 见解 做 出 决策 。 这 里 我 们 将 谈 到 : 什么 使 得 决策 变 得 困难 ， 以 及 如 何 进行 改进 。 


贯穿 所 有 章节 的 一 个 主旨 就 是 : 成 为 数据 驱动 型 企业 不 仅 需 要 数据 或 是 最 新 的 大 数据 工具 集 ， 还 需 具备 相应 的 企业 文化 。 文 
化 在 企业 的 目标 设 定 方面 占据 了 重要 的 地 位 ， 这 些 目标 期 望 包括 : 数据 的 大 众 化 水 平 能 达到 哪个 水 平 ? 如 何在 整个 组 织 中 使 用 和 
查看 数据 ? 将 数据 作为 战略 资产 投入 的 资源 与 培训 有 多 少 ? 


因此 ， 我 们 将 价值 链 各 个 步骤 中 所 涉及 的 内 容 整合 成 了 一 个 独立 的 文化 章节 。 之 后 的 一 个 章节 中 ， 我 们 将 会 谈 到 自 上 而 下 的 
数据 领导 ， 特 别 是 近期 新 增 的 两 个 高 管 角色 : 首席 数据 官 和 首席 分 析 官 。 不 过 ， 文 化 的 影响 也 可 以 是 自 下 而 上 的 。 因 此 ， 在 本 书 
谈 到 分 析 师 与 分 析 师 管理 经 理 时 ， 我 们 将 强调 他 们 能 够 做 什么 ， 才 能 最 大 限度 地 影响 整个 组 织 。 一 个 真正 的 数据 驱动 型 企业 应 该 
是 具备 数据 民主 性 的 ， 在 与 数据 和 数据 质量 相关 的 组 织 中 拥有 大 量 的 利益 相关 者 。 他 们 能 够 充分 利用 数据 做 出 基于 事实 的 决策 ， 
并 利用 数据 来 获得 竞争 优势 。 我 们 想 阐 述 的 一 般 性 观点 是 : 什么 是 数据 驱动 型 ， 什 么 不 是 数据 驱动 型 。 


在 此 ， 我们 需要 先 说 明 数 据 收集 和 访问 的 初始 先决 条 件 。 然 后 从 一 些 细节 方面 对 比 报告 、 预 警 和 分 析 之 间 的 显著 差别 。 不 同 
类 型 的 预测 分 析 的 复杂 程度 也 各 不 相同 。 因 此 ， 我 们 将 从 “分 析 水 平 ”和 “分 析 成 熟 度 ”两 个 角度 去 讨论 这 些 类 型 ， 特 别 是 一 个 
成 熟 型 组 织 的 标志 应 该 是 什么 。 


我 们 先 回答 第 一 个 问题 : 对 于 一 个 企业 而 言 ， 数 据 驱 动 意味 着 什么 ? 


17.1 数据 收集 


以 下 列举 了 一 些 明 显 的 分 析 前 提 条 件 。 


条 件 1: 如 果 一 个 企业 不 收集 数据 ， 那 么 它 永远 不 可 能 成 为 数据 驱动 型 企业 。 


毫 无 疑问 ， 数 据 是 一 个 核心 要 素 。 不 过 只 是 满足 “是 数据 ”这 个 要 求 也 太 低 了 ， 它 必须 是 正确 的 数据 。 这 些 数 据 集 必须 和 我 
们 手头 的 工作 相关 ， 及 时 、 准 确 、 清 晰 、 公 正 ， 最 重要 的 是 ， 它 必须 是 值得 相信 的 。 这 个 要 求 其 实 是 很 奇 刻 的 ， 因 为 数据 总 会 比 
我 们 想 的 要 繁杂 ， 数 据 间 微妙 的 差别 就 有 可 能 会 影响 到 你 的 结论 。 清 洗 数 据 、 传 输 数据 是 一 件 非常 复杂 ， 既 耗 时 又 耗 钱 的 工程 。 
经 常 有 数据 科学 家 说 ， 他 们 花 在 获取 、 清 洗 、 准 备 数据 的 过 程 占据 了 80% 的 时 间 ， 而 在 建 模 、 分 析 、 可 视 化 和 获得 结论 上 只 用 了 
20% 的 时 间 (案例 参考 : http://goo.gl/agby8V and http://goo.gl/urYVE) 。 就 个 人 经 验 而 言 ， 我 们 认为 事实 正 是 如 此 。 


就 算 你 有 优质 数据 ， 甚 至 是 大 量 的 优质 数据 ， 那 也 远 远 不 够 。 各 种 天 花 乱 坠 的 宣传 并 不 会 造就 一 个 数据 驱动 型 组 织 。 以 某 些 
大 数据 生产 商 和 服务 提供 商 为 代表 的 一 群 人 ， 人 往往 将 数据 视 为 灵丹妙药 : 广 撒 网 ， 多 搜集 数据 ， 其 中 总 有 一 些 数据 是 具有 价值 
的 。 只 要 拥有 这 些 有 价值 的 数据 ， 就 能 使 任何 公司 获得 成 功 。 但 事实 并 非 如 此 : 单 靠 数 据 是 远 远 不 够 的 。 少 量 干净 、 可 信 度 高 的 
数据 会 比 大 量 的 垃圾 数据 更 有 价值 。 


条 件 2: 如 果 数 据 无 法 访问 或 是 查询 ， 那 么 组 织 也 很 难 成 为 数据 驱动 型 组 织 。 
即使 拥有 精准 、 及 时 、 相 关 性 强 的 数据 ， 也 不 足以 称 为 数据 驱动 型 组 织 。 


可 连接 性 : 在 必要 时 ,企业 的 数据 必须 要 能 与 其 他 企业 的 数据 相连 接 。 数 据 关 系 库 、NoSQL 存 储 或 是 Hadoop 等 都 是 可 供 
选择 的 选项 。 工 作 时 ， 应 该 使 用 合适 的 分 析 工 具 。 例 如 ， 在 很 长 一 段 时 间 ，Warby Parker 的 金融 分 析 师 都 会 利用 Excel 计 算 那 些 
需要 向 高 层 报告 的 关键 指标 。 他 们 从 各 种 不 同 的 地 方 获取 大 量 的 原始 数据 ， 通 过 Vlookups 将 所 有 数据 连接 在 一 起 ， 以 获取 最 高 
级 的 视图 。 起 初 Vilookups 能 够 很 顺利 地 运转 ， 但 随 着 公司 的 销量 与 客户 群 的 迅速 扩大 ， 数 据 变 得 越 来 越 多 ，Excel 的 文件 接近 
300Mb。 即 使 不 断 扩 充 计 算 机 RAM ， 运 行 Vlookups 还 是 得 花费 10 多 个 小 时 ， 而 且 电 脑 还 经 常 朋 溃 ， 不 得 不 重启 。 他 们 尽 可 能 
地 改进 工具 和 方法 。Vlookups 曾 是 一 个 非常 合适 的 工具 ， 但 是 公司 的 快速 发 展 使 它 变 得 不 合 时 宜 。 对 于 分 析 师 而 言 ， 想 要 获取 
这 些 数 据 就 必须 消耗 大 量 的 时 间 ， 同 时 还 得 面 对 Vlookups 可 能 会 因为 崩溃 而 不 得 不 重新 运行 10 多 个 小 时 的 压力 。 相 较 于 分 析 师 
这 一 角色 ， 他 们 可 能 更 像 是 微软 数据 工程 师 。 我 们 的 团队 致力 于 将 整个 数据 集 导 入 MySQL 的 关系 数据 库 。 我 们 写 了 许多 查询 来 
为 他 们 处 理 这 些 数据 ， 使 他 们 能 够 更 加 专注 于 分 析 、 归 纳 和 展示 这 些 数据 ， 这 使 得 分 析 师 们 能 够 更 有 效 地 利用 他 们 的 时 间 。 拥 有 
更 好 的 工具 和 更 多 的 时 间 ， 分 析 师 们 就 能 专心 于 更 加 深入 而 丰富 的 分 析 了 。 


可 分 享 : 企业 内 部 必须 要 具备 数据 分 享 文化 ， 这 样 所 有 的 数据 才能 够 被 连接 起 来 。 比 如 说 将 客户 的 点 击 流 与 他 们 的 交易 历史 
进行 匹配 。 试 想 一 下 ， 一 个 病人 本 来 应 被 送 进 医院 急诊 室 准备 接受 治疗 ， 但 却 被 要 求 门诊 部 接受 额外 治疗 和 检查 。 如 果 医 院 不 将 
数据 共享 ， 病 人 只 会 受到 更 差 的 服务 与 护理 ， 病 人 不 知道 他 何 时 、 何 地 、 为 何 要 去 医院 ， 也 不 知道 他 的 身体 究竟 出 现 了 什么 问 
题 ， 需 要 接受 什么 治疗 等 。 从 医院 的 角度 来 看 ， 如 果 他 们 无 法 拥有 连贯 、 准 确 的 患者 流量 ， 诊 断 过 程 和 完整 的 纵向 数据 ， 那 么 分 
析 人 员 也 很 难 进行 分 析 并 改进 流程 。 因 此 ， 孤 立 的 数据 限制 了 我 们 能 够 取得 的 结果 与 成 就 ， 这 也 是 整体 大 于 部 分 之 和 的 典型 案 
例 。 


可 查询 : 利用 合适 的 工具 来 查询 这 些 数据 ， 并 将 这 些 数据 进行 分 类 。 想 要 得 到 报告 和 分 析 ， 必 须要 对 数据 进行 过 滤 、 分 组 和 
组 合 ， 将 大 量 的 原始 数据 精炼 为 一 小 组 高 级 数据 ， 利 用 这 些 数据 帮助 我 们 了 解 业 务 中 究竟 存在 什么 问题 。 要 想 知 道 用 户 之 间 的 趋 
势 或 者 差异 ,分析 师 必须 要 有 能 帮助 他 们 轻松 计算 这 些 指标 的 工具 。 


假设 我 们 现在 拥有 了 数据 ， 而 且 这 些 数据 随时 可 以 获得 。 那 这 样 是 否 就 已 经 足够 了 呢 ? 显 然 并 非 如 此 ， 能 处 理 这 些 数据 的 人 
才 也 是 必需 的 。 这 意味 着 需要 有 过 滤 和 整合 数据 的 工具 ， 例 如 查询 语言 或 者 Excel 的 宏 ， 这 也 意味 着 这 些 人 必须 设计 和 选择 合适 
的 指标 来 提取 和 追踪 这 些 数据 。 这 些 指 标 可 能 是 重新 订阅 率 (对 于 订阅 服务 ， 例 如 Netflix 或 华尔街 日 报 的 订阅 率 ) 、 生 命 周 期 
价值 或 者 增长 指标 ， 这 些 都 是 需要 人 来 指定 的 ， 这 些 指标 一 定 要 能 在 企业 的 工作 流程 中 创造 价值 。 


因此 ， 如 果 想 要 成 为 数据 驱动 型 组 织 ， 就 必须 要 有 人 置身 事 内 ， 懂 得 与 数据 相关 的 一 切 ， 他 们 能 够 针对 数据 提出 相应 的 问 


题 ， 选 取 准 确 的 数据 和 指标 ， 并 将 这 些 数据 转化 为 信息 。 简 而 言 之 ， 单 纯 的 数据 无 法 拯救 你 的 企业 。 


17.2 报告 


假设 你 有 一 个 分 析 团 队 ， 他 们 能 够 获取 准确 的 数据 ， 并 利用 这 些 数 据 获得 报告 ， 他 们 骄傲 地 宣布 公司 从 4 月 到 5 月 的 订阅 量 
增长 了 5.2%。 听 上 去 这 个 公司 貌似 是 一 个 数据 驱动 型 组 织 ， 但 实际 并 非 如 此 。 能 够 跟踪 这 些 指标 固然 不 错 ， 因 为 CFO 和 CEO 一 
定 会 对 这 些 数 字 感 兴趣 。 但 是 这 5.2% 的 增长 究竟 能 说 明 什么 呢 ? 实 际 上 可 能 并 没有 多 少 意义 。 公 司 销 售 上 升 的 因素 有 很 多 种 : 


订阅 量 每 月 增长 5.2% 





图 17-1 月 销售 增长 达到 5.2% 


1) 生产 的 产品 本 来 就 是 季节 性 特别 强 的 产品 。 比 如 说 泳装 ， 也 许 5.2% 的 增长 率 还 低 于 正常 水 平 了 。 在 大 多 数 年 份 ， 五 月 的 
增长 率 应 该 是 高 于 7% 的 ， 而 今 每 年 的 增长 却 低 于 了 平均 水 平 。 


2) 也 许 首席 营销 官 为 了 提高 品牌 知名 度 ， 人 花费 了 大 量 的 资金 在 一 个 全 国 性 的 活动 上 。 那 这 5.2% 的 增长 究竟 有 多 少 是 来 自 于 
这 个 活动 的 呢 ? 这 个 活动 是 否 物 有 所 值 呢 ? 


3) 公司 CEO 出 现在 了 《 早 安 美国 》， 或 者 产品 刚好 被 Techcruch 推 荐 ， 又 或 是 视频 广 为 流 传 ， 这 些 因素 也 能 够 推动 销量 的 
增加 。 也 就 是 说 ， 销 售 额 的 增长 可 以 是 因为 某 个 特定 的 非常 规 事件 ， 这 种 增长 可 能 是 暂时 的 ， 也 有 可 能 是 持续 的 。 


4) 也 许 每 个 月 的 销量 都 比较 低 而 且 变 化 幅度 比较 大 。 销 量 的 增长 可 能 只 是 因为 这 个 月 的 运气 比较 好 ， 但 公司 的 整体 趋势 却 
是 在 下 降 的 。 (如 果 你 炒 过 股 ， 一 定 会 深 有 体会 。) 


这 些 原因 都 有 可 能 促进 公司 销售 额 增长 。 报 告 的 数字 只 是 一 个 简单 的 数字 ， 并 无 法 说 明 上 下 文 。 


随 着 组 织 变 得 越 来 越 庞 杂 ， 高 层 管理 们 会 更 少 地 依赖 一 手数 据 ， 更 多 地 依赖 大 量 经 过 处 理 的 数据 。 





John Gardner 
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之 内 奖 升 到 了 5 以 上 ， 这 是 平时 水 平 的 10 售 。 


叮 叮 叮 ! 14 号 Web 应 用 程序 服务 器 在 过 去 5 分 钟 的 CPU 平 均 利 用 率 高 达 98%1 


警报 基本 上 是 报告 目前 发 生 了 一 些 什么 。 和 警报 与 报告 类 似 ， 会 提供 具体 的 数据 和 精细 的 指标 ， 但 并 不 会 告诉 你 为 什么 CPU 
利用 率 会 达到 峰值 ， 也 不 会 告诉 你 应 该 做 些 什么 来 纠正 这 些 问题 。 警 报 和 报告 都 是 缺乏 环境 背景 
配 。 性 能 工程 师 和 系统 管理 员 的 工作 正 是 如 此 : 深入 到 生产 数据 中 ， 确 定 发 生 了 些 什 么 ， 为 什么 发 生 以 及 如 何 修复 这 些 问题 ( 重 
写 代 码 ， 局 用 更 多 的 服务 器 ， 或 是 重新 配置 负载 平衡 器 等 ) 。 


介绍 的 ， 无 法 将 原因 与 结果 相 匹 


图 17-2 展 示 了 服务 器 负载 的 一 个 例子 。 一 般 情 况 下 ， 服 务 器 每 天 运行 的 负载 大 概 是 0.5 左 右 。 但 在 凌晨 1 点 时 ， 却 在 30 分 钟 
否 需要 修复 ， 如 何 进行 修复 ”但 实际 

上 ， 这 不 过 是 服务 器 在 每 个 周 四 的 凌晨 1 点 例 行 进行 备份 而 已 ， 平 时 完全 正常 ， 没 有 任何 问题 。 这 说 明了 一 个 观点 : 就 算是 有 再 
好 的 数据 、 再 清晰 的 指标 ， 只 要 没有 背景 环境 介绍 ， 一 切 都 是 白费 。 如 果 管 理 员 知道 每 周 四 凌晨 1 点 会 有 系统 备份 ， 那 么 就 能 很 
轻松 地 解决 这 一 问题 了 。 
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回 1 Minute Average Current: 0.08 
国 3 Minute Average Current: 0.04 
国 153 Minute Average Current: 0.01 


这 很 不 正常 ， 其 中 究竟 发 生 了 什么 问题 ， 
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图 17-2 ”随时 间 推 移 的 服务 器 负载 示例 (来 源 : http://www.bwfhosting.com/we-got-your-back/) 


17.4 ”从 报告 到 警报 再 到 分 析 


诺 并 为 股东 们 提供 了 大 量 的 盈利 报告 ， 但 它 并 非 从 企业 内 部 文化 去 改善 业务 流程 。 


NM/ 
人 人、 


无 论 是 报告 还 是 警报 ， 它 们 都 不 是 数据 驱动 的 典型 特征 。 不 过 我 们 不 能 低估 这 两 项 活动 的 重要 性 。 在 数据 驱动 型 组 织 中 ， 报 
告 具 有 重要 的 价值 。 缺 乏 报告 ， 组 织 不 可 能 成 为 有 效 的 数据 驱动 型 企业 。 但 这 只 是 必要 条 件 ， 而 非 充分 条 件 ， 许 多 组 织 太 过 于 专 
注 专业 报告 ， 很 少 甚至 是 没有 进行 真正 的 客观 分 析 。 首 先 ， 法 律 要 求 和 责任 义务 可 能 会 影响 到 报告 ， 比 如 说 Sarbanes-Oxley 承 


报告 只 会 告诉 你 过 去 发 生 了 些 什 么 ， 提 供 了 一 个 观察 变化 、 趋 势 的 参考 线 。 这 些 报告 可 能 会 


很 有 趣 ， 还 能 让 投资 者 和 股东 高 


， 但 它 基 本 上 都 是 后 瞻 性 的 。 想 要 成 为 数据 驱动 型 企业 ， 你 就 必须 超越 这 一 点 ， 要 有 前 瞻 性 ， 参 与 分 析 、 挖 掘 、 找 出 数字 变化 


的 原因 ， 并 在 适当 的 情况 下 进行 可 测试 的 预测 或 者 运行 各 种 试验 以 获得 更 多 的 数据 ， 揭 示 其 中 变化 的 原因 。 


我 们 可 以 通过 对 比 更 加 明确 “报告 ”与 “分 析 ” 的 差别 。 以 下 是 一 组 定义 : 

报告 : 将 数据 转化 为 信息 化 结论 的 过 程 ， 以 监控 不 同 领域 的 业务 是 如 何 运行 的 。 

分析: 将 数据 集 转化 为 具有 竞争 力 的 观点 ， 利 用 人 员 、 流 程 和 技术 来 推动 业务 决策 和 行动 。 

报告 说 明 的 是 发 生 了 什么 ,例如 ， 周 四 上 午 10: 03 网 站 的 访问 量 达 到 了 峰值 ， 有 63000 个 用 户 同时 访问 了 网 站 。 


只 有 分 析 其 发 生 的 原因 ， 才 能 为 企业 提供 更 多 的 建议 。 比 如 说 ， 由 于 电视 节目 “60 分 钟 ”在 10: 01 时 提 到 了 某 个 公司 ， 所 
以 公司 网 站 的 访问 量 达到 了 峰值 ， 那 么 企业 就 可 以 类 似 地 增加 在 媒体 前 的 曝光 率 。 


报告 主要 说 明 事实 是 什么 ， 而 分 析 则 是 从 另 一 个 角度 规范 性 地 说 明 为 什么 。 


在 表 17-1 中 ， 我 们 总 结 了 两 者 的 差别 。 现 在 大 家 都 能 清晰 地 明白 ， 为 什么 分 析 和 成 为 数据 驱动 型 企业 对 于 企业 来 说 是 一 个 
重要 的 方面 或 者 文化 因素 。 这 能 推动 企业 在 新 领域 开展 业务 或 是 提高 效率 水 平 。 


表 17-1 分 析 与 报告 的 核心 属性 


报告 分 析 
描述 性 规范 性 数据 + 信息 一 观点 
是 什么 调查 结果 、 建 议 
后 脆性 前 脆性 背景 + 叙述 性 
提出 问题 回答 问题 ”| 


表 17-2 ”Davenport 关 于 利用 分 析 解 决 核心 问题 的 假设 〔〈 修 改版 ) 上 








A) 发 生 了 什么 ? B) 现在 发 生 了 什么 ? C) 未 来 将 发 生 什么 ? 
报告 警报 推断 

D) 如 何 发 生 ? 为 什么 发 生 ? |E) 下 一 步 的 最 优 决策 ? F) 发 生 的 最 好 /最 差 结果 ? 
建 模 ， 实 验 设计 建议 预测 、 优 化 、 模 拟 





Davenport 等 人 为 我 们 建立 了 一 个 理解 分 析 的 有 效 框架 (参照 表 17-2) 。 最 底部 的 一 行 就 提 到 了 观点 驱动 型 的 活动 。 正 如 
之 前 所 说 的 ,报告 (A) 和 警告 (B) 都 过 于 简单 ， 并 不 是 数据 驱动 型 ， 它 们 只 是 描述 了 过 去 发 生 了 什么 或 者 是 目前 有 什么 异常 
事情 友 生 了 ， 不 能 说 明 为 什么 会 发 生 ， 也 无 法 为 解决 这 个 问题 或 是 改善 目前 的 状况 提供 解决 意见 。 


通过 模型 或 者 实验 去 深入 挖掘 数据 ， 找 出 其 中 的 各 种 原因 ， 这 一 步 是 数据 驱动 型 组 织 的 必 备 。 只 有 知道 问题 发 生 的 原因 ， 才 
能 指定 出 一 个 合适 的 计划 与 建议 方案 (E) 。 当 且 仅 当 这 些 信息 能 够 被 运用 于 实际 时 ，E 和 F 才 能 算 作 是 真正 的 数据 驱动 性 组 织 。 
C 是 一 个 比较 危险 的 区 域 : 它 能 够 很 轻松 地 通过 现 有 数据 去 预测 未 来 ， 比 如 说 ， 在 Excel 中 ， 单 击 “ 图 表 ”， 然 后 “添加 趋势 
线 ”， 就 可 以 预测 未 来 趋势 。 即 使 根据 最 基础 的 模型 得 出 的 结论 ， 也 不 一 定 准确 。 如 果 想 得 到 一 个 可 信 度 高 的 模型 ， 就 必须 要 知 
道 其 中 的 因果 关系 。 辟 的 来 说 ， 下 面 的 一 行 是 前 瞻 性 最 强 的 活动 ， 包 括 因果 分 析 的 要 素 。 不 如 让 我 们 先 看 一 下 成 为 数据 型 组 织 意 
味 着 什么 吧 。 


[1 D 具有 价值 分 析 当 且 仅 当 信息 被 采用 时 (在 语 境 中 解读 ) ， 已 和 EF 才 是 数据 导向 型 。 


17.5 ”数据 驱动 的 标志 


真正 数据 驱动 型 组 织 参 与 的 活动 有 以 下 几 种 。 


" 数据 驱动 型 组 织 需要 持续 性 的 测试 。 这 有 可 能 是 在 网 站 上 的 A/B 结 账 流程 测试 ， 也 有 可 能 是 营销 活动 中 的 电子 邮件 测试 。 
例如 ，LinkedIn 每 天 进行 200 次 实验 ， 而 Etsy 会 同时 运行 几 十 个 实验 。 测 试 还 可 以 包括 用 户 测 试 ， 直 接 与 实际 客户 或 用 户 合作 以 获 
得 与 新 产品 或 是 产品 的 新 特征 相关 的 直接 反馈 。 


. 数据 驱动 型 组 织 需要 有 进行 持续 改进 的 心态 。 它 可 能 会 包括 核心 流程 的 反复 优化 ， 例 如 减少 制造 时 间或 是 降低 收集 成 本 。 
这 需要 通过 仔细 的 分 析 ， 指 定数 据 或 统计 模型 后 ， 模 拟 运 算得 出 。 


数据 驱动 组 织 可 能 会 涉及 一 些 预测 模型 ， 例 如 销售 、 股 票 价格 或 公司 收入 的 预测 ， 但 最 重要 的 是 ， 将 预测 误差 和 其 他 学 习 
进行 反馈 以 帮助 改进 模型 。 


. 数据 驱动 型 组 织 一 般 会 利用 一 套 加 权 变 量 对 未 来 或 是 行动 进行 选择 。 资 源 是 有 限 的 ， 但 无 论 是 哪 一 种 利用 方式 都 会 有 利 参 
存在 。 收 集 相 关 数据 ， 并 衡量 其 中 哪些 因素 会 在 最 后 起 主导 作用 。 例 如 ，Watby Patket 将 纽约 作为 他 们 的 第 一 个 办 公 地 时 ， 就 考 
虑 到 了 一 系列 的 指标 : 盖 洛 善 幸福 指数 、 人 才 储 备 、 生 活 成 本 、 纽 约 的 航班 数量 和 成 本 。 将 这 些 指标 进行 排名 、 加 权 后 作为 决策 
的 参考 部 分 。 玛 丽 落 . 梅 耶 尔 (雅虎 CEO) 也 曾 说 过 一 个 类 似 的 故事 ， 在 选择 工作 时 ， 她 将 相似 的 工作 进行 对 比 排名 ， 根 据 排 
名 结果 最 后 决定 去 谷歌 工作 。 





进行 前 瞻 性 的 思考 是 对 数据 导向 型 组 织 的 最 低 要 求 ， 数 据 是 进行 决策 时 需要 考虑 的 基本 要 素 之 一 。 

如 果 一 个 组 织 既 有 优质 的 数据 ， 还 有 能 进行 预测 分 析 的 分 析 师 ， 那 这 个 组 织 一 定 是 数据 驱动 型 ! 

仅 赁 个 人 直觉 进行 决策 ， 无 视 分 析 师 的 观点 ， 这 样 的 组 织 一 定 无 法 成 为 数据 驱动 型 组 织 。 报 告 只 有 影响 到 决策 者 的 分 析 决 策 
时 ， 才 会 产生 意义 。 


Dykes 在 分 析 价 值 链 时 ， 就 说 到 过 这 一 点 (参考 图 17-3) 。 根 据 数 据 形 成 相应 的 报告 ， 进 而 引发 深入 的 思考 与 分 析 。 数 据 驱 
动 型 组 织 的 核心 要 素 是 ， 报 告 能 够 为 决策 者 所 知 ， 并 影响 到 最 终 决 策 。 企 业 以 数据 和 分 析 为 基础 ， 不 断 调整 策略 ， 通 过 某 种 形式 
对 企业 产生 最 大 化 的 影响 。 技 术 和 培训 使 分 析 的 合理 应 用 成 为 了 可 能 。 正 是 这 种 文化 影响 到 了 态度 和 流程 的 选择 ， 在 这 种 文化 的 
影响 下 ， 人 们 能 够 知道 并 信任 这 些 分 析 结 果 ， 并 根据 这 些 结果 采取 相应 的 行动 。 





图 17-3 “分析 价 值 链 (Dykes，2010) 。 在 数据 驱动 型 企业 中 ， 数 据 构成 了 报告 ， 从 而 引发 更 加 深入 的 分 析 。 这 些 都 是 由 决 
策 者 负责 的 ， 他 们 将 分 析 报 告 引 入 决策 过 程 ， 影 响 公司 的 发 展 动向 ， 提 供 价值 和 影响 上 

最 后 ， 我 们 知道 数据 驱动 手段 的 关键 是 什么 。 数 据 是 数据 驱动 型 企业 的 核心 要 素 ， 它 会 影响 到 各 种 决策 的 制定 与 执行 。 在 一 
个 讲究 证 据 的 组 织 文化 中 ， 人 们 认可 数据 ， 分 析 结 果 应 该 高 度 相 关 且 具有 信息 价值 ， 并 能 影响 到 下 一 步 决策 的 制定 。 


如 果 你 的 组 织 正在 进行 决策 ， 你 该 如 何 保证 决策 更 具有 数据 驱动 价值 呢 ” 这 个 过 程 并 不 容易 ， 也 不 会 很 快 ， 所 以 不 要 指望 能 
够 在 一 夜 之 间 发 生根 本 性 的 变化 ， 但 是 组 织 中 的 每 个 人 都 能 为 此 尽 一 份 力 。 在 本 书 中 ， 我 们 将 研究 能 够 使 企业 组 织 成 为 数据 驱动 


型 组 织 的 方法 和 文化 。 


[1] 图 表 来 源 : http://blogs.adobe.comy/digitalmatketing/analytics/tepotting-vs-analysis-whats-the-difference/。 


17.6 “分 析 成 熟 度 


2009 年 ，SAS 研 究 院 的 高 级 副 总 裁 和 首席 营销 官 mDavis 提 出 了 分 析 的 八 个 层次 : 
1) 标准 报告 : 发 生 了 什么 ? 什么 时 候 发 生 的 ? 例如 : 每 月 的 财务 报告 。 
2) 特别 报告 : 有 多 少 ? 多 久 一 次 ? 在 哪里 ? 例如 : 自 定义 报告 。 


3) 查询 钻 取 (或 是 在 线 分 析 流 程 ，OLAP) : 究竟 在 哪里 出 了 问题 ? 如 何 找 到 结果 ? 例如 : 手机 用 户 类 型 的 数据 发 现 及 其 
调用 行为 。 


4) 警报 : 应 该 在 何 时 采取 行动 ? 需要 采取 什么 行动 ? 例如 : 之 前 提 到 的 CPU 利用 问题 。 


— 


5) 统计 分 析 : 为 什么 发 生 了 这 种 情况 ? 我 错过 了 什么 机 会 ? 例如 : 为 什么 更 多 的 银行 用 户 会 用 他 们 的 房子 进行 再 融资 。 


\ 一 


6) 预测 : 如 果 这 些 趋 势 继 续 下 去 怎么 办 ? 需要 多 少 资金 ?什么 时 候 需 要 ? 例如 : 零售 商 也 可 以 预测 不 同 店家 的 产品 需求 。 
7) 预测 模型 : 接 下 来 会 发 生 什么 ? 它 将 如 何 影响 我 的 业务 ? 例如 : 赌场 预测 哪 一 类 VIP 客户 会 对 特定 度假 套餐 更 感 兴趣 。 


8) 优化 : 我 们 如 何 做 得 更 好 ”复杂 问题 的 最 优 结果 是 什么 ”例如 : 当 业 务 冲突 、 资 源 限制 时 ， 优 化 IT 基 础 染 构 的 最 佳 方法 
是 什么 ? 


这 些 想 法 构成 了 Davenport 和 Harris (2007) 具有 影响 力 的 书 《Competing on Analytics》 中 图 16-2 的 基础 ， 可 参见 图 
17-4。 


商业 智能 与 分 析 
优化 < 和 好 的 情况 将 会 如 何 
预测 模型 一 步 会 发 生 什 4 


时 | 预测/ 推 第 ”LO 冯 势 持续 将 会 如 何 


站 为 什么 会 发 生 
Ey 2 


需要 采取 何 种 措施 


询问 / 作 和 下 扣 问题 的 本 质 是 什么 ee 
服 告 规模 ， 频 率 ， 在 何 处 发 生 。 人 生成 报告 
KE 发 生 了 什么 


图 17-4 ”商业 智能 与 分 析 


将 Davenport 的 框架 和 表 17-2 的 内 容 进行 对 比 ， 可 以 很 明确 地 将 前 四 个 级 别 与 上 面 一 行 的 信息 相对 应 ， 而 后 面 的 四 个 级 别 
可 以 和 下 面 的 一 行进 行 对 应 。 


我 们 喜欢 一 些 具有 一 般 性 的 概念 和 标签 。 不 过 Davis、Davenport 和 Harris (2007) 提出 了 他 们 的 想法 ， 特 别 是 在 增长 趋势 
明显 的 情况 下 ， 很 容易 把 它 解读 为 一 个 顺序 性 的 过 程 ， 就 像 是 打 游 戏 时 ， 只 有 你 完成 了 当前 的 关卡 ， 才 能 进行 到 下 一 步 。 

这 种 伪 进 展 往往 被 认为 是 分 析 成 熟 度 。 如 果 你 在 谷歌 图 片上 搜索 “分 析 成 熟 度 ” ， 就 能 理解 我 们 的 意思 了 : 许多 商务 智能 供 
应 商 和 从 业 人 员 将 这 个 作为 一 组 垫 脚 石 ， 就 像 是 一 个 向 下 的 单 向 箭头 。 分 析 并 不 是 这 样 的 ， 分 析 会 跨越 不 同 的 层次 ， 并 且 同 时 利 
用 组 织 中 不 同 层次 的 不 同 部 分 。Ron Shevlin 列 出 了 一 些 关键 点 : 


从 能 力 的 角度 来 看 ， 如 果 企 业 不 知道 销 信 中 的 问题 出 在 哪里 (第 六 点 ) ， 那 也 很 难 进行 下 一 步 的 销售 预测 (第 三 点 ) 。 如 果 
不 知道 “如 何 保持 下 一 步 的 趋势 ”或 是 “下 一 步 要 发 生 什 么 ”， 经 理 也 不 知 如 何 应 对 “现在 需要 采取 什么 行动 ”这 一 问 


降 
o 


我 们 认为 正确 的 方法 应 该 是 考虑 所有 问题 ， 组 织 致 力 于 将 承诺 、 投 资 、 分 析 利 用 的 水 平 与 Davenport 和 Harris 认 为 的 分 析 性 
竞争 力 相 结合 。 例 如 ， 如 果 你 有 一 个 专门 致力 于 优化 全 球 供应 链 的 运营 研究 团队 ， 那 你 一 定 会 在 数据 和 分 析 方 面 投入 大 量 资金 。 
如 果 你 的 组 织 只 是 想 获得 警报 和 查询 明细 ， 那 么 所 需 的 投资 力度 肯定 会 弱 得 多 ， 数 据 驱 动力 也 更 低 。 


其 潜在 的 意思 是 : 分 析 越 精致 越 好 ， 它 能 够 使 组 织 更 具有 竞争 力 。 不 过 真 的 是 这 样 么 ”在 一 个 有 趣 的 研究 中 ，MIT 斯 隆 管理 
评论 和 1IBM 商 业 价值 研究 院 调查 了 30 个 产业 的 3000 名 经 理 和 分 析 师 ， 询 问 了 他 们 分 析 价 值 的 使 用 情况 和 信任 程度 。 


在 问 到 组 织 所 处 的 竞争 地 位 时 ， 可 能 的 回答 是 : 
1) 明显 优 于 同行 。 
2) 比 同 行 稍 胜 一 筹 。 
3) 与 同行 水 平 相当 。 
4) 略微 或 是 明显 差 于 同行 。 
选择 答案 1 或 4 的 组 织 分 别 被 视 为 最 高 和 最 低 表 现 者 。 有 趣 的 是 ， 相 较 于 表现 最 差 的 人 ， 表 现 最 好 的 人 往往 : 
:使 用 分 析 的 可 能 性 高 5 倍 。 
" 进行 复杂 分 析 的 可 能 性 高 3 倍 。 
利用 分 析 来 指导 日 常 运作 的 可 能 性 高 2 倍 。 
利用 分 析 来 指导 未 来 决策 的 可 能 性 高 2 倍 。 


方法 论 中 可 能 存在 着 复杂 的 因素 ， 其 中 可 能 存在 明显 的 偏差 ， 比 如 组 织 规模 与 行业 最 优 表现 者 之 间 可 能 存在 着 某 种 相关 关 
系 。 (我 们 知道 这 些 组 织 的 收入 从 不 到 5 亿美 元 到 超过 10 亿 美元 。) 比如 说 ， 只 有 更 大 、 更 成 功 的 组 织 才 能 有 足够 的 带宽 和 资源 
来 运行 复杂 的 运营 研究 部 门 ， 这 些 部 门 能 够 帮助 开发 和 运行 供应 链 模 拟 模 型 。 


作者 确定 了 三 种 水 平 的 分 析 能 力 : 启发 型 、 经 验 型 和 变革 型 。 如 表 17-3 所 示 。 





表 17-3 ”分 析 力 的 三 个 部 分 : 启发 型 、 经 验 型 、 变 革 型 由 


要 和 
和 WE 
利用 严谨 的 方法 
去 做 决定 
捕获 、 聚 合 、 分 
析 或 共享 信息 和 见 
解 的 能 力 


有 时 大 多 数 时 





e 所 有 的 局 发 性 与 经 验 性 


| | 的 功能 
。 财务 、 预 算 ee 。 风险 管理 
功能 水 平 。 操作 与 生产 epi 。 用 户 体验 
。 销售 与 市 场 营销 Wie 。 员工 规划 
一 。 综合 管理 
。 品牌 与 营销 管理 


相 较 于 启发 型 组 织 ， 变 革 型 企业 往往 : 


* 抓 取 信息 的 能 力 要 高 四 倍 。 


分 析 信 息 的 能 力 要 高 八 们 。 
. 传播 信息 与 观点 的 能 力 要 高 十 倍 。 
* 利用 集中 式 分 析 单元 作为 主要 分 析 来 源 的 可 能 性 要 高 63%。 
尽管 其 中 可 能 会 掺 杂 着 原因 、 影 响 和 偏见 的 因素 ， 但 与 同样 复杂 的 分 析 相 比 ， 这 些 因 素 与 竞争 优势 之 间 还 是 人 存在 着 显著 的 相 
关 性 。 


那么 ， 究 竟 是 什么 导致 组 织 无 法 广泛 采用 分 析 呢 ?排名 前 三 的 答案 中 ， 有 两 个 答案 都 是 不 知道 如 何在 公司 内 部 分 析 以 及 缺乏 
技能 (参见 表 17-4) 。 这 些 是 包括 分 析 师 在 内 的 所 有 人 都 能 帮助 驱动 的 。 例 如 ， 分 析 师 能 够 帮助 “提高 ”他 们 的 技能 ， 并 且 可 
以 更 积极 地 做 好 工作 ， 并 将 其 价值 传达 给 他 们 的 经 理 ， 进 而 创造 商业 价值 。 他 们 可 以 做 更 多 的 研究 ， 研 究 其 他 组 织 是 如 何 通 过 分 
析 来 解决 类 似 的 业务 问题 的 。 数 据 工 程 师 的 管理 人 员 可 以 将 资源 分 配给 数据 集成 和 质量 ， 使 数据 变 得 可 信 。 高 层 管理 人 员 可 以 促 
进 或 是 要 求 丰富 的 数据 分 享 ， 同 时 ， 制 定 更 加 明晰 的 所 有 权 和 | 数据 管理 权 ， 例 如 任命 首席 分 析 官 或 首席 数据 官 (之 后 的 章节 会 提 
到 ) 。 每 个 人 都 有 自己 的 角色 。 


表 17-4 关于 “在 您 的 组 织 中 广泛 采用 和 使 用 信息 和 分 析 时 的 主要 障碍 是 什么 ? ”问题 的 回答 


问题 回答 占 比 〈% ) 





不 太 了 解 如 何 利用 分 析 来 改善 业务 39 
由 于 对 抗 苋 争 ， 缺 乏 带宽 管理 34 
在 企业 内 部 缺乏 技能 28 
现 有 文化 不 辟 励 分 享 24 
数据 所 有 权 不 明确 或 是 治理 是 无 效 的 23 
缺乏 管理 层 支持 23 
获取 数据 的 能 力 22 
对 数据 的 关注 度 2 
感觉 成 本 会 超过 预期 收益 21 
无 变化 或 者 是 不 作为 的 后 果 15 
不 知 从 何 开始 9 


[1] 改编 自 : http://sloanreview.mit.edu/atticle/big-data-analytics-and-the-path-from-insights-to-value/。 


第 18 草 构建 大 数据 团队 


人 员 的 选择 是 大 数据 项 目 中 最 重要 的 一 环 ， 这 一 点 虽然 明显 ， 却 常常 被 人 忽视 。 没 有 人 员 的 投入 和 解析 ， 大 数据 分 析 就 会 失 
意义 ， 失 去 目标 ， 失 去 价值 。 要 想 让 大 数据 发 挥 作 用 ， 就 需要 一 个 团队 ， 即 使 这 个 团队 只 有 两 个 成 员 ， 人 员 也 是 不 可 或 缺 的 要 


组 建 团队 是 一 项 异常 复杂 的 工作 ， 在 此 过 程 中 ， 组 织 者 可 能 要 参与 大 量 的 会 议 ， 开 展 招聘 工作 ， 负 责 员工 团队 管理 工作 等 。 
团队 成 员 需要 在 大 数据 方面 有 多 项 专长 ， 这 也 是 组 建 团队 的 标准 。 而 确定 这 些 专长 各 是 什么 ， 则 是 组 建 团队 的 第 一 步 。 


18.1 数据 科学 家 


对 于 “数据 科学 家 ”这 一 新 名 词 的 概念 ， 目 前 还 没有 被 广泛 接受 ， 但 客观 上 它 已 经 可 以 被 理解 为 如 下 定义 : 


数据 科学 家 一 般 会 与 BI 顾问 或 其 他 专注 于 数据 分 析 ( 特 别 是 大 量 数据 分 析 ) 的 人 员 配 合 工作 ， 以 帮助 企业 获得 竞争 优势 。 数 
据 科学 家 往往 是 大 数据 分 析 项 目的 实际 领导 者 。 





数据 科学 家 这 一 头衔 有 时 会 受到 沂 病 ， 因 为 这 一 头衔 缺乏 特性 ， 并 常 被 误 以 为 是 数据 分 析 师 的 同义词 。 然 而 ， 有 志 于 从 大 数 
据 中 获取 有 价值 信息 的 大 企业 对 数据 科学 家 的 接受 度 已 经 越 来 越 高 。 大 数据 可 以 包括 企业 自身 产生 的 或 接触 到 的 结构 化 、 半 结构 
化 和 非 结 构 化 数据 。 


数据 科学 家 需要 具备 多 项 综合 能 力 ， 包 括 分 析 能 力 、 机 器 学 习 、 数 据 挖 掘 、 统 计 能 力 以 及 算法 和 代码 编写 方面 的 能 力 。 而 最 
重要 的 一 项 能 力 是 将 数据 所 蕴 合 的 意义 以 便于 人 们 理解 的 方式 呈现 出 来 。 


18.2 团队 挑战 


搜寻 并 雇用 具备 分 析 能 力 的 人 员 是 构建 强大 数据 分 析 团 队 的 第 一 步 。 组 织 团队 则 是 第 二 步 ， 我 们 应 该 慎重 考虑 IT 团队 与 BI 团 
队 之 间 的 关系 ， 因 为 这 将 最 终 确 定 大 数据 分 析 专 家 拥有 多 大 程度 的 自主 权 。 


高 度 结构 化 、 集 权 型 的 企业 倾向 于 将 分 析 团 队 放 在 IT 部 门 或 BIC (Business Intelligence Competency) 中 心 。 然 而 ， 很 多 
专家 发 现 ， 去 中 心 化 的 结构 设置 更 有 利于 大 数据 分 析 项 目的 成 功 ， 因 为 这 种 结构 给 予 团队 成 员 在 解读 和 审视 数据 方面 更 大 的 自主 
权 。 


为 了 实现 效率 最 大 化 ， 大 数据 分 析 团 队 可 以 按照 业务 功能 划分 ， 并 直接 配备 到 不 同 的 业务 单元 之 中 。 例 如 ， 关 注 客 户 流失 率 
和 其 他 市 场 相 关 分 析 的 分 析 团队 可 以 放 在 市 场 部 ， 而 关注 风险 方面 的 数据 分 析 团 队 则 更 适合 放 在 财务 部 门 。 


理想 状况 下 ， 将 大 数据 团队 放 在 能 立刻 


实现 数据 结果 价值 的 团队 是 最 佳 选择 ， 因 为 这 种 设置 可 以 促进 发 现 ， 确 定价 值 并 且 以 
更 加 可 行 的 方式 交付 结果 。 分 析 人 员 和 部 门 领 导 


可 以 在 一 个 频道 交流 ， 确 保 充 分 协同 ， 达 到 最 佳 效果 。 


这 一 切取 决 于 企业 的 规模 。 中 小 型 企业 和 大 型 企业 在 分 析 方 面 的 需求 不 尽 相同 ， 而 数据 分 析 专 家 与 其 服务 的 部 门 之 间 的 关系 
也 会 有 所 不 同 。 


18.3 不 同 的 团队 ， 不 同 的 目标 


举 一 个 比较 有 代表 性 的 例子 : 工程 公司 要 对 大 量 非 结构 化 数据 进行 技术 分 析 。 公 司 本 身 可 能 规模 很 小 ， 但 数据 集 确 十 分 庞 
大 。 例 如 ， 工 程 公 司 要 设计 一 座 桥梁 ， 那 么 其 所 接触 的 大 数据 中 将 包含 多 种 要 素 ， 包 括 人 口 数据 、 交 通 流量 、 天 气 情况 等 ， 这 些 
数据 都 将 对 该 区 域 的 交通 压力 状况 和 趋势 产生 影响 ， 从 而 决定 桥梁 的 设计 方向 。 而 如 果 其 他 要 素 被 加 入 进来 (如 市 场 因素 ， 包 括 
材料 费用 、 该 区 域 的 经 济 增长 预期 等 ) ， 则 所 需 的 数据 科学 家 也 会 相应 变化 。 该 岗位 人 员 可 能 不 仅 需 要 具备 工程 学 背景 ， 同 时 也 
需要 对 经 济 变 化 形势 的 敏锐 观察 力 。 其 工作 仅 配 合 工程 的 第 一 负责 人 ， 而 不 需要 对 公司 的 其 他 部 门 负责 。 


这 意味 着 ， 公 司 的 市 场 和 销售 部 门 可 能 “受到 冷落 ”。 问 题 在 于 ， 这 种 分 析 对 于 这 些 部 门 究竟 有 多 大 意义 ”答案 可 能 是 完 
无 足 轻重 。 如 果 是 这 样 ， 那 么 市 场 分 析 、 竞 争 分 析 、 政 府 资助 、 基 础 设施 使 用 年 限 和 使 用 状况 、 人 口 密度 等 数据 对 目前 的 数据 科 
学 家 可 能 都 不 适用 ， 数 据 科学 家 可 能 需要 其 他 的 专项 技能 来 前 释 数 据 结 果 。 


随 着 对 分 析 的 需求 以 及 企业 规模 的 增长 ， 角 色 将 发 生 改变 ， 对 应 的 流程 和 关系 也 将 随 之 变化 。 大 型 企业 为 了 使 其 所 拥有 的 数 
据 发 挥 更 大 的 作用 ， 投 入 也 在 逐步 增加 。 因 此 ， 企 业 必 须 明 确 大 数据 分 析 团 队 所 必须 具备 的 核心 技能 ， 并 围绕 公司 的 核心 竞争 力 
构建 相应 的 团队 。 和 幸运 的 是 ， 识 别 这 些 核心 竞争 力 相 对 容易 ， 因 为 团队 的 任务 可 以 被 分 解 成 三 个 主要 的 能 力 。 


18.4 别 志 了 数据 


数据 分 析 团 队 有 三 项 核心 的 基本 能 力 : 数据 定位 、 数 据 规格 化 以 及 数据 分 析 。 


第 一 项 能 力 ， 数 据 定位 ， 要 求人 员 能 够 从 内 外 部 来 源 寻找 相关 信息 ， 并 与 IT 部 门 数 据 管 理 团队 合作 ， 稳 当地 获取 这 些 信息 。 
除 此 之 外 ， 还 需要 与 外 部 企业 、 政 府 部 门 以 及 研究 公司 合作 以 获取 所 需 的 数据 集 ， 并 对 结构 化 和 非 结构 化 数据 之 间 的 差异 了 如 指 
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第 二 项 能 力 ， 数 据 规 格 化 ， 要 求人 员 能 够 将 数据 去 粗 取 精 ， 过 滤 掉 数据 材料 中 的 虚假 数据 ， 形 成 可 供 分 析 的 原始 数据 。 除 清 
洗 能 力 外 ， 这 一 过 程 还 要 求人 员 和 具备 一 定 的 技术 能 力 ， 包 括 整 合 数据 集 ， 将 数据 集 导入 存储 平台 ， 构 建 数据 规格 化 模型 等 能 力 。 


第 三 项 能 力 ， 数 据 分 析 ， 则 是 数据 分 析 团 队 最 重要 的 能 力 。 对 于 大 多 数组 织 ， 数 据 科学 家 执掌 整个 数据 分 析 过 程 ， 包 括 获取 
数据 ， 设 计算 法 ， 收 集结 果 ， 并 最 终 呈 现 相关 信息 。 


这 三 项 能 力 被 认为 是 数据 分 析 团 队 的 基础 能 力 。 而 每 项 基础 能 力 又 可 以 被 分 解 成 若干 项 子 能 力 。 不 同 的 数据 分 析 流 程 涉及 的 
范围 和 要 素 不 尽 相同 ， 这 些 子 能 力也 会 相应 变化 。 


如 同 数据 本 身 一 样 ， 数 据 分 析 团 队 的 构成 也 并 非 一 成 不 变 ， 而 是 随 着 业务 的 需要 而 变化 。 


18.5 更 多 挑战 
选择 合适 的 人 一 直 是 组 建 数 据 分 析 团 队 最 大 的 难点 。 此 类 人 才 需 求 旺盛 ， 而 对 于 数据 分 析 和 数据 科学 家 的 需求 更 是 飞速 增 
长 


要 获得 此 类 人 才 ， 组 织 需要 更 加 聚焦 数据 科学 ， 雇 用 具备 统计 学 模型 搭建 、 文 本 数据 挖掘 以 及 情感 分 析 等 专业 技能 的 人 员 。 
要 想 使 大 数据 分 析 实现 价值 ， 必 须 有 可 靠 的 数据 基础 、 统 计 学 预测 模型 以 及 测试 分 析 模型 做 支撑 ， 这 些 都 是 大 数据 不 可 或 缺 的 核 
心 应 用 。 


找到 合适 的 大 数据 人 才 比 安置 一 个 传统 的 IT 人 员 要 复杂 得 多 ， 要 想 获 得 优良 的 投资 回报 ， 人 员 所 具备 的 技能 也 绝 非 仅仅 从 技 
术 上 考虑 这 么 简单 。 有 些 组 织 试 图 从 咨询 公司 中 挖掘 大 数据 人 才 ， 然 而 事实 上 ， 很 多 咨询 公司 本 身 也 在 兰若 追寻 真正 能 够 实现 大 
数据 价值 的 人 才 。 


不 过 ， 尽 管 大 数据 的 进程 困难 重重 ， 总 还 是 存在 一 线 希 望 。 对 大 数据 业务 来 说 ， 业 务 能 力 和 技术 能 力 同样 重要 ， 这 决定 了 其 
需要 复合 型 人 才 的 特点 。 因 此 ， 大 数据 业务 的 潜在 人 才 范 围 要 比 IT 专 家 的 潜在 人 才 范 围 大 得 多 。 事 实 上 ， 大 数据 人 才 并 不 一 定 都 
要 从 IT 为 中 心 的 部 门 发 掘 ， 只 要 是 对 研究 、 分 析 以 及 结果 呈现 有 需求 的 部 门 ， 都 可 以 成 为 培养 大 数据 人 才 的 摇篮 。 


大 数据 业务 的 潜在 人 才 库 范围 可 以 很 广 ， 只 要 是 对 于 大 数据 有 兴趣 ， 能 够 看 到 大 数据 的 价值 ， 有 一 定 的 技术 背景 (如 网 站 开 
发 ) ， 甚 至 仅仅 是 对 大 数据 有 兴趣 和 天 赋 而 自学 相关 知识 以 促进 工作 的 人 群 ， 都 可 以 说 是 大 数据 业务 的 潜在 人 才 。 这 样 的 人 懂得 
大 数据 的 价值 以 及 解读 数据 的 方法 。 


不 过 ， 企 业 不 能 仅仅 把 对 大 数据 的 兴趣 作为 雇用 大 数据 分 析 人 员 的 标准 。 企 业 应 当 建 立 一 套 测试 机 制 ， 来 确保 人 员 具 备 这 一 
新 职位 所 需要 的 能 力 。 如 果 想 要 立即 为 大 数据 团队 创造 价值 ， 候 选 人 需要 具备 以 下 五 个 方面 的 基本 能 力 。 


1) 数据 挖掘 (Data Mining) ，; 

2) 数据 可 视 化 (Data Visualization) ; 
3) 数据 分 析 (Data Analysis) ; 

4) 数据 处 理 (Data Manipulation) ; 
5) 数据 搜索 (Data Discovery) 。 


这 些 能 力 被 认为 是 成 为 数据 科学 家 的 标准 。 


18.6 团队 与 文化 


可 以 说 ， 找 到 并 雇用 合适 的 具备 分 析 能 力 的 人 才 是 建立 优秀 的 数据 分 析 团 队 的 第 一 步 。 如 果 这 一 说 法 成 立 ， 那 么 接 下 来 就 是 
确定 该 团队 与 现 有 的 IT 和 BI 团队 之 间 的 关系 ， 以 及 给 予 数据 分 析 专 家 多 大 的 自主 权 。 


这 一 过 程 包括 为 技术 专家 (同时 也 是 业务 专家 ) 建立 一 套 新 的 文化 。 建 立 这 种 文化 取决 于 多 项 因素 ， 包 括 确保 团队 能 够 受到 
公司 现行 文化 的 旦 陶 ， 注 重量 化 的 结果 等 。 


企业 若 想 从 传统 的 IT 中 心 文化 ， 向 具备 先进 数据 分 析 和 翔实 决策 依据 的 企业 内 部 文化 转型 ， 就 要 自 上 而 下 地 开展 工作 。 在 高 
管 层面 具备 转型 经 验 的 企业 ， 大 多 懂得 为 建立 数据 分 析 的 企业 文化 、 数 据 仓库 、BI 以 及 深度 分 析 项 目 铺 平 道路 。 


在 利用 大 数据 分 析 的 同时 ， 文 化 的 变革 也 是 随 之 而 来 的 一 项 重要 工作 。 很 多 企业 习惯 于 将 企业 运营 建立 在 过 往 经 验 的 基础 
上 ， 甚 至 仅仅 是 “跟着 感觉 走 ”。 而 这 种 方式 往往 导致 企业 运营 的 刻板 和 僵化 。 


在 连锁 零售 行业 ， 这 一 点 最 为 明显 。 连 锁 经 营 的 零售 店 ， 在 不 同 区 域 之 间 要 保持 一 致 。 而 这 恰恰 与 店面 陈设 灵活 机 动 ， 适 应 
区 域 特点 以 提升 竞争 力 的 需求 背道而驰 。 建 立 起 基于 分 析 结 果 进 行 运营 的 文化 ， 有 助 于 改变 这 样 的 情形 。 例 如 ， 通 过 数据 挖 扬 和 
预测 性 分 析 ， 自 动 生成 针对 不 同门 店 的 供 货 存 储 计划 ， 从 而 更 好 地 满足 市 场 需求 。 关 键 是 ， 要 准确 地 将 存在 潜在 需求 的 商品 提供 
给 相应 的 客户 ， 就 好 比 佛罗里达 不 会 有 人 卖 雪 铲 ， 阿 拉 斯 加 也 没有 人 卖 防晒 油 一 样 。 


建立 分 析 型 企业 文化 的 另 一 个 潜在 途径 就 是 建立 专门 的 数据 分 析 团 队 。 数 据 分 析 团 队 拥 有 自己 的 领导 ， 可 以 制定 数据 分 析 战 
略 以 及 项 目 计划 ， 促 进 数据 分 析 在 公司 内 部 的 运用 ， 对 数据 分 析 师 进行 分 析 工 具 和 理念 的 相关 培训 ， 并 在 项 目 实施 过 程 中 与 上 T、 
BI、 数 据 仓 储 等 部 门 通力 合作 。 


18.7 ”量化 成 殉 


成 就 要 可 以 量化 ， 而 量化 一 个 团队 的 成 就 是 十 分 复杂 的 。 因 此 ， 在 制定 目标 、 衡 量 方式 以 及 工作 的 里 程 碑 时 ， 借 助 大 数据 的 
帮助 就 显得 尤为 重要 。 制 定 绩效 标准 因而 也 成 为 制定 业务 计划 的 重要 组 成 部 分 。 有 了 大 数据 的 帮助 ， 在 量化 不 同 的 绩效 成 绩 时 ， 
方法 可 以 更 具有 针对 性 。 





例如 ， 某 公司 试图 提高 其 仓库 的 使 用 效率 ， 那 么 绩效 指标 可 以 是 货架 的 空置 率 以 及 这 些 空置 的 货架 所 占 的 成 本 。 通 过 对 货物 
移动 情况 、 销 售 预测 等 要 素 进 行 数 据 分 析 ， 可 以 将 货物 摆 放 在 更 合适 的 位 置 ， 以 更 好 地 满足 客户 的 需求 。 只 需 将 经 过 大 数据 分 析 
团队 进行 重新 规划 前 后 的 货架 利用 率 进 行 简单 对 比 ， 即 可 发 现 效率 提升 程度 。 


第 七 篇 ”大 数据 实战 


第 19 章 ”大 数据 使 用 实例 


大 数据 正在 迅速 成 为 一 个 流行 语 。 许 多 组 织 已 经 对 围绕 大 数据 的 技术 进行 了 重大 投资 ， 并 且 正 在 开始 利用 其 中 的 内 容 来 找到 
真正 的 价值 。 


即使 如 此 ， 大 数据 仍然 存在 很 大 的 混乱 ， 类 似 于 许多 信息 技术 (IT) 管理 者 过 去 经 历 过 的 颠覆 性 技术 。 大 数据 在 改变 商业 智 
能 (BI) 在 企业 中 的 使 用 方式 方面 具有 破坏 性 ， 这 对 许多 高 级 管理 人 员 来 说 是 一 个 可 怕 的 建议 。 


这 种 情况 使 首席 技术 官 、 首 席 信息 官 和 IT 经 理 处 于 不 能 令 人 满意 的 位 置 ， 他 们 试图 证 明 颠 履 性 技术 将 真正 改善 业务 运营 。 使 
这 种 情况 进一步 复杂 化 的 是 与 内 部 大 数据 处 理 相关 的 高 成 本 ， 以 及 围绕 大 数据 分 析 外 部 处 理 的 安全 问题 。 


也 许 一 些 冲 突 来 自 于 大 数据 本 身 。 非 技术 人 员 可 能 认为 大 数据 是 一 个 与 大 问题 和 大 成 本 相关 的 东西 。 与 其 说 大 数据 ， 不 如 说 
大 数据 分 析 可 以 获得 广大 决策 制定 者 的 支持 ， 使 他 们 在 建立 基于 员工 、 技 术 和 成 果 的 商业 案例 时 有 据 可 循 。 


诀窍 是 超越 已 接受 的 大 数据 定义 一 一 它 只 是 数据 集 太 大 ， 无 法 使 用 传统 工具 管理 一 一 并 解释 大 数据 是 一 种 技术 的 结合 。 


大 型 是 这 里 的 关键 词 ， 这 仪 仪 是 因为 每 秒 钟 收集 了 大 量 数据 一 一 比 以 往 任何 时 候 都 更 多 一 这些 数据 量 的 大 小 比 当前 战略 
和 技术 可 以 实际 管理 的 数据 量 大 。 

以 数据 为 核心 的 “大 数据 ”革命 改变 了 传统 商业 流程 的 执行 模式 ， 它 提高 了 效率 ， 为 收入 发 现 新 流程 ， 推 动 创新 发 展 。 大 数 
据 已 经 从 一 个 新 的 专业 术语 迅速 发 展 成 为 一 个 实用 的 定义 一 一 大 数据 分 析 。 





第 七 篇 ”大 数据 实战 


第 19 章 ”大 数据 使 用 实例 


大 数据 正在 迅速 成 为 一 个 流行 语 。 许 多 组 织 已 经 对 围绕 大 数据 的 技术 进行 了 重大 投资 ， 并 且 正 在 开始 利用 其 中 的 内 容 来 找到 
真正 的 价值 。 


即使 如 此 ， 大 数据 仍然 存在 很 大 的 混乱 ， 类 似 于 许多 信息 技术 (IT) 管理 者 过 去 经 历 过 的 颠覆 性 技术 。 大 数据 在 改变 商业 智 
能 (BI) 在 企业 中 的 使 用 方式 方面 具有 破坏 性 ， 这 对 许多 高 级 管理 人 员 来 说 是 一 个 可 怕 的 建议 。 


这 种 情况 使 首席 技术 官 、 首 席 信 息 官 和 |T 经 理 处 于 不 能 令 人 满意 的 位 置 ， 他 们 试图 证 明 颠 覆 性 技术 将 真正 改善 业务 运营 。 使 
这 种 情况 进一步 复杂 化 的 是 与 内 部 大 数据 处 理 相 关 的 高 成 本 ， 以 及 围绕 大 数据 分 析 外 部 处 理 的 安全 问题 。 


也 许 一 些 冲 突 来 自 于 大 数据 本 身 。 非 技术 人 员 可 能 认为 大 数据 是 一 个 与 大 问题 和 大 成 本 相关 的 东西 。 与 其 说 大 数据 ， 不 如 说 
大 数据 分 析 可 以 获得 广大 决策 制定 者 的 支持 ,使 他 们 在 建立 基于 员工 、 技 术 和 成 果 的 商业 案例 时 有 据 可 循 。 


诀窍 是 超越 已 接受 的 大 数据 定义 一 一 它 只 是 数据 集 太 大 ， 无 法 使 用 传统 工具 管理 一 一 并 解释 大 数据 是 一 种 技术 的 结合 。 


大 型 是 这 里 的 关键 词 ， 这 仅仅 是 因为 每 秒 钟 收集 了 大 量 数 据 一 一 比 以 往 任 何 时候 都 更 多 一 一 这 些 数 据 量 的 大 小 比 当 前 战略 
和 技术 可 以 实际 管理 的 数据 量 大 。 

以 数据 为 核心 的 “大 数据 ”革命 改变 了 传统 商业 流程 的 执行 模式 ， 它 提高 了 效率 ， 为 收入 发 现 新 流程 ， 推 动 创新 发 展 。 大 数 
据 已 经 从 一 个 新 的 专业 术语 迅速 发 展 成 为 一 个 实用 的 定义 一 一 大 数据 分 析 。 





19.1 大 数据 的 使 用 与 意 > 


1. 实 现价 值 


许多 行业 (包括 医疗 保健 、 公 共 部 门 、 零 售 和 制造 业 ) 显然 可 从 分 析 其 快速 增长 的 数据 中 受益 。 收 集 和 分 析 事 务 数据 使 组 织 
能 够 更 好 地 了 解 客 户 的 偏好 ， 因 此 数据 可 以 用 作 创 建 产品 和 服务 的 基础 。 这 使 得 各 组 织 能 够 及 时 和 更 有 竞争 力 地 纠正 新 出 现 的 问 


太 人 。 


大 数据 分 析 的 使 用 因此 成 为 各 个 公司 的 竞争 和 增长 的 关键 基础 ， 并 且 它 很 有 可 能 成 为 新 一 波 生产 力 、 增 长 与 消费 者 剩余 的 支 
撑 基 础 。 


2. 大 数据 的 情况 


为 大 数据 项 目 构 建 有 效 的 业务 案例 涉及 确定 可 以 直接 与 业务 流程 相关 并 且 易 于 理解 和 量化 的 几 个 关键 要 素 。 这 些 要 素 包 含 知 
识 发 现 、 可 操作 的 信息 、 短 期 与 长 期 收益 、 疼 痛 点 的 解决 ， 以 及 其 他 能 够 帮助 洞察 业务 流程 的 要 素 。 


在 大 多 数 情况 下 ， 大 数据 在 引入 企业 时 是 一 个 干扰 性 因素 ， 它 会 影响 企业 的 规模 、 存 储 和 数据 中 心 的 设计 。 这 些 影 响 通常 体 
现在 与 硬件 、 软 件 、 人 员 和 支持 相关 的 成 本 ， 这 些 都 会 影响 企业 利润 。 这 意味 着 投资 回报 率 (ROI) 和 所 有 权 总 成 本 (TCO) 是 
影响 大 数据 计划 的 关键 要 素 。 战 略 的 目的 就 是 提高 ROI， 降 低 TCO。 最 简单 的 实现 方法 就 是 将 大 数据 业务 计划 与 有 业务 需求 驱动 
的 其 他 IT 项 目 联系 在 一 起 。 


虽然 这 听 起 来 可 能 是 一 个 真正 的 挑战 ， 但 企业 实际 上 一 直 在 投资 存储 技术 和 改进 处 理 以 满足 其 他 业务 目标 ， 如 合 规 性 、 数 据 
归档 、 云 计划 和 连续 性 计划 。 这 些 计划 可 以 为 大 数据 项 目 提供 基础 ， 这 要 归于 大 数据 的 两 个 主要 需求 : 存储 和 处 理 。 


最 近 ， 商 业 IT 解 决 方案 的 自然 增长 一 直 专 注 于 采用 分 布 式 特性 的 处 理 框架 ， 其 中 存储 和 应 用 分 布 在 多 个 系统 和 位 置 。 这 也 证 
明 分 布 式 处 理 框架 是 大 数据 处 理 的 最 佳 平台 ， 进 一 步 帮助 为 大 数据 分 析 打 下 基础 。 


一 个 商业 案例 主要 涉及 场景 应 用 与 基础 信息 提供 。 大 数据 解决 方案 的 提供 商 们 往往 需要 提供 大 量 已 有 的 案例 ， 同 时 附 上 一 些 
商业 计划 书 、 场 景 应 用 和 辅助 功能 。1BM、 Oracle 和 惠普 都 是 提供 全 面 服务 的 典型 厂商 。 


虽然 没有 用 于 构建 业务 案例 的 设 定 公式 ， 但 有 一 些 天 键 元 素 可 用 于 定义 业务 案例 的 外 观 ， 这 有 助 于 确保 大 数据 项 目的 成 功 。 
大 数据 分 析 的 坚实 商业 案例 应 包括 以 下 内 容 : 


- 项 目的 完整 背景 。 这 包括 项 目的 驱动 程序 ， 其 他 人 如 何 使 用 大 数据 ， 大 数据 将 与 之 匹配 的 业务 流程 以 及 实施 项 目的 总 体 目 


. 效益 分 析 。 通 常 很 难 量 化 大 数据 作为 静态 和 有 形 的 好 处 。 大 数据 分 析 是 关于 数据 的 解释 和 模式 的 可 视 化 ， 这 相当 于 主观 分 
析 ， 高 度 依赖 人 类 来 翻译 结果 。 但 是 ， 这 并 不 妨碍 业务 案例 以 非 主题 术语 (例如 ， 识 别 销售 趋势 ， 查 找 库 存 收缩 的 原因 ， 量 化 运 
输 延 迟 或 衡量 客户 满意 度 ) 纳入 大 数据 驱动 的 收益 。 诀 窍 是 使 项 目的 好 处 与 业务 流程 或 需求 相 一 致 。 例 如 ， 确 定 业务 目标 (例如 
5% 的 年 增长 率 ) ， 然 后 展示 大 数据 分 析 如 何 帮 助 实现 该 目标 。 


. 选项 。 实 现 大 数据 有 几 条 路 径 ， 从 内 部 大 型 机 解决 方案 (运行 大 型 主机 系统 的 数据 中 心 ) 到 云 中 的 托管 产品 ， 再 到 两 者 的 
混合 。 重 要 的 是 研究 这 些 选 项 及 其 优 缺 点 ， 并 确定 每 个 选项 可 能 如 何 工 作 ， 以 实现 大 数据 分 析 。 还 应 强调 优惠 和 福利 ， 使 财务 决 


策 与 技术 决策 相关 联 。 


- 范围 和 成 本 。 范 围 是 一 个 管理 问题 ， 而 不 是 物理 部 署 问题 。 这 一 切 都 归结 于 实施 范围 如 何 影响 资源 ， 特 别 是 企业 员工 。 范 
围 问 题 应 该 确定 项 目的 人 员 和 和 时间， 确定 人 员工 时 和 技术 专长 ， 以 及 培训 和 辅助 要 素 。 成 本 还 应 与 人 员 配 备 和 培训 问题 相关 联 ， 
这 有 助 于 为 TCO 计 算 创造 条 件 ， 并 为 准确 的 ROI 计 算 提供 基础 。 


. 风险 分 析 。 计 算 风 险 可 能 是 一 项 复杂 的 工作 。 然 而 ， 由 于 大 数据 分 析 是 真正 的 业务 流程 ， 提 供 BI[， 风 险 计算 可 以 包括 与 技 
术 带 来 的 好 处 相 比 不 做 任何 事情 的 成 本 。 考 处 的 其 他 风险 是 安全 影响 (数据 存储 位 置 和 谁 可 以 访问 它 ) ，CPU 开 销 (分 析 将 限制 
可 用 于 一 系列 业务 应 用 的 处 理 能 力 ) ， 兼 容 性 和 集成 问题 (无论 安装 和 操作 将 使 用 现 有 技术 ) ， 以 及 业务 流程 中 断 (安装 会 导致 
停机 ) 。 所 有 这 些 要 素 都 可 以 被 认为 是 大 规模 项 目的 风险 ， 应 该 考虑 建立 一 个 可 靠 翔 实 的 商业 案例 。 


当然 ， 业 务 案例 最 关键 的 主题 是 ROI。 组 织 可 能 收 到 的 与 项 目 成 本 相关 的 回报 或 利益 是 一 个 比率 ， 随 着 更 多 的 研究 和 建立 业 
务 案例 时 收集 的 信息 ， 这 一 比例 可 能 会 发 生变 化 。 理 想 情 况 下 ， 随 着 更 多 的 研究 工作 完成 ，ROI 将 会 不 断 提 高 ， 同 时 ， 商 业 案例 
研究 者 们 也 能 从 中 发 现 大 数据 分 析 方 案 在 实施 过 程 中 的 附加 价值 。 然 而 ， 投 资 回报 率 通常 是 决定 项 目 是 否 会 最 终 推进 的 最 重要 因 
素 。 提 高 ROI 的 确 已 成 为 公司 和 非 营 利 组 织 首 先 从 事 商 业 案例 过 程 的 主要 考量 原因 之 一 。 


3. 大 数据 选项 的 升级 


Teradata、IBM、HP、Oracle 和 许多 其 他 公司 已 经 提供 了 T 字 节 级 数据 仓库 十 多 年 ， 但 是 这 些 产品 都 是 针对 数据 仓库 是 主 
要 目标 的 流程 。 如 今 ， 数 据 倾向 于 以 各 种 各 样 的 格式 被 收集 和 和 存储， 包括 结 构 化 、 半 结构 化 和 非 结 构 化 元 素 ， 每 个 元 素 倾 向 于 具 
有 不 同 的 存储 和 管理 需求 。 对 于 大 数据 分 析 ， 必 须 能 够 跨 多 个 服务 器 并 行 处 理 数 据 。 鉴 于 正在 分 析 的 信息 量 ， 这 是 必要 的 。 


除了 彻底 维护 来 自 数据 库 的 事务 数据 和 数据 仓库 中 精心 挑选 的 数据 之 外 ， 组 织 还 从 服务 器 和 机 器 生成 数据 的 形式 获取 了 大 量 
的 日 志 数 据 ， 来 自 内 部 和 外 部 社交 了 网络 的 客户 评论 以 及 其 他 来 源 分 散 的 非 结 构 化 数据 。 


这 些 数 据 集 以 指数 速率 增长 ， 这 要 归功 于 摩尔 定律 。 摩 尔 定律 指出 ， 可 以 放置 在 处 理 器 晶片 上 的 晶体 管 的 数量 大 约 每 18 个 
月 翻 一 番 。 每 个 新 一 代 处 理 器 的 功能 是 其 最 新 前 身 的 两 倍 。 同 样 ， 新 服务 器 的 功能 也 每 18 个 月 翻 一 番 ， 这 意味 着 它们 的 活动 将 
产生 相应 更 大 的 数据 集 。 


大 数据 方法 代表 了 如 何 处 理 数 据 的 重大 转变 。 在 过 去 ， 精 心 挑选 的 数据 通过 网 络 传输 到 数据 仓库 ， 在 那里 它们 可 以 进一步 检 
查 。 然 而 ， 随 着 数据 量 的 增加 ，1O 成 为 瓶 巴 。 这 是 一 种 分 布 式 平台 (如 Hadoop) 发 挥 作用 的 情况 。 分 布 式 系统 允许 在 数据 驻 留 
的 地 方 进行 分 析 。 


传统 的 数据 系统 不 能 有 效 地 处 理 大 数据 ， 或 者 因为 这 些 系 统 不 是 设计 用 于 处 理 今天 的 数据 ， 它 们 的 结构 要 少 得 多 ， 或 者 数据 
系统 不 能 快速 和 经 济 地 扩展 。 大 数据 分 析 与 传统 BI 非常 不 同 ， 传 统 BI 通常 依赖 于 放置 在 数据 仓库 中 的 用 户 数据 的 干净 子 集 ， 以 有 
限 数量 的 预定 方式 查询 。 


大 数据 采用 了 一 种 非常 不 同 的 方法 ， 其 中 组 织 生 成 的 所 有 数据 都 将 被 收集 和 交互 。 这 人 允许 管理 员 和 分 析 人 员 考 虑 以 后 如 何 使 
用 数据 。 在 这 个 意义 上 ， 大 数据 解决 方案 被 证 明 比 传统 的 数据 库 和 数据 仓库 更 具 可 扩展 性 。 


想 要 了 解 大 数据 分 析 工 具 的 演进 ， 必 须 回 到 Hadoop 的 诞生 和 大 数据 运动 的 黎明 。Hadoop 的 根源 可 以 追溯 到 2004 年 的 
Google 白 皮 书 ， 其 中 描述 了 Google 构 建 的 基础 架构 ， 用 于 使 用 称 为 Bigtable 的 索引 系统 在 许多 不 同 的 服务 器 上 分 析 数 据 。 
Google 将 Bigtable 用 于 内 部 使 用 ， 但 是 已 经 创建 了 Lucene 和 Solr 开 源 搜索 引 敬 的 开发 人 员 Doug Cutting 创 建 了 一 个 开源 版 本 的 
Bigtable， 并 根据 他 儿子 的 一 个 大 象 玩具 将 其 命名 为 Hadoop。 


Hadoop 的 首 批 采用 者 之 一 是 雅虎 ， 它 在 2006 年 左右 专门 从 事 大 量 工程 工作 以 改进 技术 。 雅 虎 的 主要 挑战 是 了 解 跨越 不 同 
系统 人 存储 的 大 量 有 趣 数 据 。 统 一 这 些 数据 并 将 其 作为 一 个 整体 进行 分 析 成 为 雅虎 的 一 个 关键 目标 ，Hadoop 最 终 成 为 了 实现 这 一 


目标 的 理想 平台 。 今 天 ， 雅 虎 是 Hadoop 的 最 大 用 户 之 一 ， 并 已 部 署 在 超过 40000 台 服务 器 上 。 


该 公司 将 该 技术 用 于 多 种 业务 案例 和 分 析 作 业 。 雅 虎 的 Hadoop 集 群 拥有 大 量 的 日 志文 件 ， 包 括 用 户 点 击 的 故事 和 部 分 ; 还 
存储 广告 活动 ， 以 及 雅虎 发 布 的 所 有 内 容 和 文章 的 列表 。 对 于 雅虎 ，Hadoop 已 被 证 明 非 常 适合 在 大 量 文 本 中 搜索 模式 。 


4. 超 越 Hadoop 


在 大 数据 领域 中 ， 我 们 熟悉 的 另 一 个 名 称 是 Cassandra 数 据 库 ， 这 种 技术 可 以 在 单行 中 人 存储 2 百 万 列 。 这 使 得 Cassandra 非 
常 适 合用 于 将 更 多 数据 附加 到 现 有 用 户 账户 ， 而 无 须 提前 知道 数据 应 该 如 何 格式 化 。 


Cassandra 的 根源 还 可 以 追溯 到 在 线 服务 提供 商 ， 例 如 ，Facebook 需 要 一 个 大 型 的 分 布 式 数据 库 来 强化 服务 的 收 件 箱 搜 
索 。Facebook 想 要 使 用 谷歌 Bigtable 架 构 ， 它 提供 了 一 个 可 以 在 大 量 节 点 上 传播 的 列 和 行 的 数据 库 结构 。 


然而 ，Bigtable 有 一 个 严重 的 限制 : 它 使 用 主 节点 导向 的 设计 。Bigtable 依 赖 于 单个 节点 来 协调 所 有 节点 上 的 所 有 读 取 和 写 
入 活动 。 这 意味 着 如 果 头 节点 下 降 ， 整 个 系统 将 是 无 用 的 。 


霄 使 用 Dynamo 跟 踪 其 数 百 万 在 线 客户 的 购物 车 。 


Dynamo 使 Cassandra 比 Bigtable 更 有 优势 ， 因 为 Dynamo 不 依赖 于 任何 一 个 主 节 点 。 任 何 节点 都 可 以 接收 整个 系统 的 数 
据 ， 以 及 反馈 查询 。 数 据 在 多 个 主机 上 复制 ， 创 建 弹性 并 消除 单 点 故障 。 


5. 与 选择 COME 决 定 


许多 由 在 线 服 务 提供 商 首 先 开 发 的 工具 正 变 为 开源 软件 提供 给 其 他 企业 。 近 来 ， 除 了 大 型 在 线 服务 提供 商 ， 大 数据 工具 正在 
被 更 广泛 的 组 织 进行 测试 。 金 融 机 构 、 电 信 、 政 府 机 构 、 公 用 事业 公司 、 零 售 和 能 源 公司 都 在 测试 大 数据 系统 。 


很 自然 ， 更 多 的 选择 使 得 决定 变 得 困难 。 在 未 将 不 确定 因素 引入 处 理 流程 时 ， 最 大 的 挑战 在 于 如 何 将 商业 计划 与 项 目 需求 相 
匹配 。 理 想 情况 下 ， 一 个 大 数据 的 商业 计划 将 例证 支持 长 期 战略 分 析 和 一 次 性 交易 及 行为 分 析 的 主要 目标 ， 该 主要 目标 将 带 来 直 
接 利益 和 长 远 利益 。 


虽然 Hadoop 适 用 于 大 多 数 企业 ， 但 它 不 是 城 里 唯一 的 游戏 (至少 在 开源 实现 方面 ) 。 一 旦 组 织 决定 利用 其 大 量 机 器 生成 的 
社交 网 络 数据 ， 设 置 基 础 设施 不 会 是 最 大 的 挑战 。 最 大 的 挑战 可 能 来 自决 定单 独 使 用 开源 ， 或 转向 大 数据 技术 的 商业 实现 之 一 。 
Cloudera、Hortonworks 和 MapR 等 供应 商 正在 将 大 数据 技术 商业 化 ， 使 其 更 易于 部 署 和 管理 。 


此 外 ， 来 自 云 服 务 提供 商 的 大 数据 按 需 服务 的 增长 以 及 决策 过 程 变 得 更 加 复杂 。 决 策 者 必须 投资 研究 和 执行 尽职 调查 ， 以 选 


择 适 当 的 平台 和 实施 方法 ， 使 业务 计划 成 功 。 然 而 ， 大 部 分 的 工作 可 以 在 业务 计划 开发 阶段 完成 ， 在 这 个 阶段 可 以 权衡 各 种 大 数 
据 方法 的 利弊 ， 然 后 根据 业务 计划 的 总 体 目标 进行 衡量 。 


19.2 案例 : 大 数据 在 金融 领域 的 应 用 


于 3 
1. 背 景 介 绍 


羊毛 党 是 指 热 囊 于 搜索 各 互联 网 金融 、 电 商 、 银 行 等 平台 的 优惠 与 奖励 活动 等 信息 ， 并 有 选择 性 地 以 低 成 本 甚至 是 零 成 本 的 


方式 换取 平台 的 激励 优惠 ， 而 这 种 行为 通常 也 被 称 为 “ 薄 羊 毛 ”。 羊 毛 党 最 早起 源 于 电 商 时 代 ， 是 各 大 平台 为 获 客 、 提 升平 台 流 
量 的 激励 手段 ; 由 于 电 商 行业 马 太 效应 的 凸显 ， 平 台 快 速 收 剑 ， 激 励 优惠 性 活动 也 随 之 大 幅 衰减 ， 羊 毛 党 也 逐渐 淡出 人 们 视线 。 


近 两 年 ， 互 联网 金融 的 快速 兴起 ， 将 金融 线 上 流量 端的 竞争 推 向 风口 浪 尖 ; 在 互联 网 流量 成 本 、 获 客 成 本 日 益 提升 的 环境 
下 ， 各 人 金融 平台 为 更 有 效 地 获取 并 经 营 用 户 ， 粗 放 式 地 推出 投资 奖励 、 加 息 、 返 现 等 优惠 激励 活动 已 为 常态 。 虽 然 这 种 奖励 性 的 
手法 着 实 能 为 平台 吸引 一 部 分 的 新 用 户 并 提升 者 用 户 对 平台 的 粘性 ， 但 除了 普通 的 投资 者 ， 也 吸引 了 一 群 羊毛 党 纷 至 省 来 。 互 联 
网 金融 衍生 而 出 的 这 类 人 和 群 ， 既 反映 了 投机 之 利 ， 也 凸显 了 投机 之 过 。 


值得 一 提 的 是 ，“ 羊 毛 党 ”的 规模 性 、 挤 占 性 以 及 投机 性 ， 导 致 了 其 对 金融 机 构 产 生 极 大 的 危害 。 


@ 规 模 性 : 许多 投机 型 投资 者 搜索 银行 等 金融 机 构 及 各 类 金融 平台 的 相关 优惠 信息 ， 并 通过 网 络 和 朋友 圈 传 播 。 也 因为 这 样 
的 需求 ， 滋 生出 了 许多 专业 搜集 与 发 布 各 金融 机 构 可 薄 取 羊毛 机 会 的 了 网站、 论坛 以 及 公众 号 。 这 使 得 金融 平台 一 旦 有 利 可 图 ,， 便 
会 在 圈 内 快速 传播 ， 形 成 规模 性 的 羊毛 党 到 平台 “ 薄 羊 毛 ”。 


@ 挤 占 性 : 羊毛 党 的 存在 导致 了 “ 劣 币 驱逐 良 币 ”， 和 平台 的 营销 与 运营 遭 到 了 虚 耗 ， 降 低 了 有 效 投 资 人 的 转化 率 ， 这 也 使 平 
台 曝 露 于 运营 风险 之 中 。 


@ 投 机 性 : 羊毛 党 对 平台 的 投资 完全 受 活动 奖励 驱使 ， 目 标 在 于 以 低 资金 成 本 、 低 时 间 成 本 快速 获取 高 收益 。 因 此 ， 其 投机 
性 的 投资 行为 具有 强 逐 利 性 ， 对 平台 粘性 低 。 


2. 核 心 概念 定义 
(1) 羊毛 党 定义 与 分 类 


羊毛 党 通常 可 分 为 四 类 : 初级 羊毛 党 、 中 级 羊毛 党 、 专 业 羊 毛 党 以 及 团 长 羊毛 党 。 四 类 群体 的 “ 斑 羊 毛 ” 手段、 收益 以 及 对 
平台 的 危害 性 都 有 所 差异 ， 如 图 19-1 所 示 。 


2. 中 级 羊毛 党 

口 关注 姆 羊毛 活动 ， 通 过 
羊毛 群 获取 资讯 ， 积 极 
参与 返 现 等 补 帖 活 动 


1 初级 羊毛 党 
0 
会 在 平台 进行 尝 
坛 作 投资 并 英 取 羊 二 


3. 专业 羊毛 党 

口 通过 采购 或 黑 取 大 量 
户 信息 ， 参 与 许多 羊毛 
团体 ， 以 机 器 刷 单 为 主 


4. 团 长 羊毛 党 

口 掌握 羊毛 联盟 ， 具 备 与 
平台 运营 的 谈判 能 力 ， 
以 刷 单刷 量 获取 收益 





图 19-1 羊毛 党 分 类 


@@ 初 级 手 毛 党 : 以 无 团体 性 的 散 客 用 户 群 为 主 ， 会 在 各 平台 寻找 活动 奖励 机 会 ， 并 进行 尝试 性 投资 。 此 类 群体 本 身 的 目标 在 
于 投资 ， 意 在 通过 参与 活动 的 方式 获取 更 高 的 收益 。 因 此 ， 初 级 羊毛 党 一 般 对 平台 的 影响 性 较 小 ， 甚 至 可 以 通过 有 效 的 经 营 的 手 
段 ， 将 用 户 转化 为 平台 的 价值 用 户 。 


@ 中 级 羊毛 党 : 以 实现 投资 资金 的 利益 最 大 化 为 目标 ， 通 过 资讯 平台 、 公 众 号 等 方式 持续 性 地 关注 薄 羊 毛 活动 ， 积 极 主动 地 
参与 各 类 返 现 、 加 息 的 投资 奖励 活动 。 这 类 群体 虽然 未 形成 规模 性 组 织 ， 对 平台 影响 较为 有 限 ， 但 其 纯粹 的 投机 性 行为 也 印证 了 
该 类 用 户 不 应 是 平台 耗费 成 本 经 营 的 人 群 。 


@ 专 业 年 毛 沈 : 通常 以 小 团伙 为 主 ， 通 过 采购 或 技术 手段 黑 取 大 量 用 户 手机 号 、 身 份 证 照 以 及 银行 卡号 信息 ， 参 与 许多 羊毛 
党 团伙 获取 资讯 ， 以 机 器 批量 薄 取 平台 羊毛 为 主要 受益 。 另 外 ， 部 分 专业 团队 具备 制作 自动 、 半 自动 的 黑 产 工具 的 能 力 ， 比 如 自 
动 注册 机 、 刷 单 自动 机 等 ， 大 大 增加 了 “ 薄 羊 毛 ” 的 操作 效率 ; 更 有 其 者 能 够 自动 生成 手机 号 码 、 实 现 短信 验证 信息 的 代 接 。 专 
业 羊 毛 党 无 论 对 于 普通 投资 者 、 信 息 泄露 受害 者 以 及 平台 都 具备 极 大 的 危害 性 。 首 先 ， 对 于 普通 投资 者 ， 专 业 羊 毛 党 大 规模 的 刷 
单刷 量 行为 ， 一 定 程度 上 影响 了 投资 者 对 热 销 金融 产品 的 判断 ;其 次 ， 对 于 信息 泄露 受害 者 ， 其 基本 信息 被 广泛 运用 ， 使 之 曝露 
于 高 信用 风险 之 中 ; 最 后 ， 对 于 平台 ， 专 业 羊 毛 党 批量 的 矿 取 平台 原本 用 于 营销 和 经 营 用 户 的 成 本 ， 使 平台 蒙受 损失 。 


@ 团 长 年 毛 沈 : 具备 强 组 织 性 、 规 模 性 的 团伙 ，“ 团 长 ”作为 羊毛 党 生态 圈 核 心 人 物 ， 掌 握 大 量 羊毛 党 联盟 的 资源 ， 由 于 规 
模 庞 大 ， 具 备 在 短 时 间 内 快速 筹措 资金 的 能 力 ， 因 此 其 核心 盈利 模式 是 通过 规模 性 的 投资 型 “羊毛 党 ”与 平台 直接 进行 商业 交 
易 ， 为 平台 解决 用 户 规模 、 交 易 规模 、 资 金 流 动 性 等 问题 ， 获 取 高 额 佣金 费用 ; 佣金 费用 最 终 又 以 分 红 模式 分 发 到 每 一 位 投资 参 
与 者 ; 相当 一 部 分 ROI 的 渠道 即 是 如 此 。 团 长 羊毛 党 通常 是 平台 中 高 层 管理 人 员 为 实现 KPI 主动 联系 。 虽 然 在 一 定 程度 上 能 够 帮 
助 平 台 实现 经 营 指标 ， 但 当 羊毛 党 在 平台 资金 占 比 过 高 时 ， 则 将 平台 曝露 于 极 高 的 同时 挤 总 的 流动 性 风险 ， 尤 其 对 于 小 平台 风险 
极 高 。 


(2) 经 营 羊 毛 党 的 核心 价值 


前 文 已 提 及 羊毛 党 带 来 的 危害 : 对 投资 者 投资 判断 的 危害 、 对 信息 泄露 受害 者 的 危害 ， 以 及 对 平台 经 营 风险 的 危害 。 然 而 ， 
羊毛 党 对 于 平台 来 说 并 非 绝 对 的 利 浆 ， 其 核心 价值 与 平台 的 发 展 阶段 紧密 相关 ， 如 图 19-2 所 示 。 








成 本 控制 : 企业 } ”战略 转型 : 进 | 
成 本 控制 趋 于 严格 ，! 行 战略 调整 / 转 | 
羊毛 党 占据 大 量 的 | 型， 羊毛 党 可 再 | 
运营 成 本 ， 企 业 运 ， 度 激活 平台 , 但 | 





本 营 成 本 控制 难 ， 流 ， 仍 会 占据 大 量 成 
平台 发 展 : 一 般 性 的 羊毛 ， 动 性 风险 上 升 本 ， 影 响 现金 流 
党 用 户 可 为 平台 快速 积累 用 ! 用户 质量 : 羊毛 
户 规模 、 交 易 规 模 ， 提 升平 ! 党 规模 大 ， 质 量 低 ， 


”全 口碑 ， 加 速 平台 发 展 。“， 影 响 企 业 单位 成 本 ; 
' 资金 端 羊毛 党 占 资金 端 比例 ， 获 客 资金 规模 ' 
过 大 将 提升 平台 风险 ' | 


初创 期 ”加 成 期 | 村 人 





图 19-2 羊毛 党 对 平台 不 同 发 展期 的 影响 


@ 发 展期 : 无 论 是 传统 金融 还 是 互联 网 金融 ， 对 于 刚 开展 线 上 业务 的 平台 ， 适 度 的 活动 推广 能 够 吸引 羊毛 党 帮助 平台 快速 累 
积 用 户 规模 、 交 易 规模 ， 并 借助 羊毛 党 的 传播 性 提升 平台 口碑 ， 加 速 平台 发 展 。 同 时 ， 小 平台 应 当 着 重 关 注 羊毛 党 在 平台 资金 的 
占 比 比率 ， 避 免 出 现 较 大 的 流动 性 风险 导致 平台 破产 。 广 东 曾 有 某 小 型 P2P 理 财 平台 ， 早 期 较 大 力度 地 推广 优惠 奖励 活动 ， 虽 然 
着 实 吸 引 到 了 部 分 真实 的 投资 者 ,但 大 部 分 优惠 奖励 成 本 被 大 量 无 粘性 的 羊毛 党 所 闫 取 ， 而 羊毛 党 的 集中 挤 吕 导致 平台 最 终 因 现 
金 流 断 有 裂 而 破产 。 因 此 ， 在 平台 发 展 早期 ， 建 立 羊毛 党 反 欺 诈 体系 对 于 平台 规避 风险 尤为 重要 。 


@ 成 熟 期 : 平台 需 自负 盈亏 ， 成 本 控制 趋 于 严格 ， 需 将 营销 成 本 尽 可 能 有 效 地 运用 于 新 用 户 的 获取 以 及 者 用户 的 经 营 。 羊 毛 
党 的 出 现 会 挤占 平台 的 有 效 经 营 成 本 ， 降 低 价值 用 户 的 体验 ， 从 而 降低 平台 有 效 转化 ， 使 平台 曝露 于 较 高 的 经 营 风险 。 因 此 ， 在 
该 阶段 ,羊毛 党 反 欺 诈 的 体系 对 平台 开展 精细 化 运营 与 营销 也 极为 重要 。 


我 们 从 价值 性 角度 来 看 国内 互联 网 金融 机 构 普 遍 的 用 户 运 营 成 本 与 营销 成 本 的 对 比 ， 如 图 19-3 所 示 。 其 中 用 户 经 营 成 本 
(上 图 ) 中 ， 有 42% 的 成 本 为 活动 奖励 成 本 ,但 仅 有 3% 的 成 本 (下 图 ) 是 由 平台 的 价值 用 户 投资 时 所 产生 。 由 此 可 见 ， 平 台 的 
用 户 经 营 成 本 大 多 由 羊毛 党 所 挤占 。 





图 19-3 用户 运营 与 营销 成 本 分 析 


可 见 ， 无 论 平台 处 于 何 种 发 展 阶段 ， 建 立 起 羊毛 党 反 欺 诈 运 营 体 系 ， 对 于 平台 提升 成 本 利用 率 、 降 低 流动 性 风险 都 尤为 重 
要 。 





(1) 一 方 平台 整治 羊毛 党 的 普遍 做 法 


羊毛 党 治理 的 核心 是 提升 羊毛 党 团伙 进行 “ 薄 羊 毛 ” 的 时 间 成 本 、 技 术 成 本 以 及 资金 成 本 。 由 于 资产 端的 风 控 更 为 重要 ， 资 
金 端 反 欺 诈 的 重视 度 通常 较 低 ， 导 致 市 场 上 大 多 金融 平台 的 反 欺 诈 手段 较为 有 限 ， 通 常 采 用 设备 与 账户 防 刷 以 及 引入 第 三 方 信用 
风险 评分 进行 资金 端的 反 欺 诈 。 


@ 设 备 与 账户 防 刷 : 平台 为 限制 羊毛 党 刷 单刷 量 ， 对 设备 在 平台 的 操作 进行 限制 。 


“ 限制 设备 注册 : 限制 同一 设备 号 在 平台 上 允许 注册 的 用 户 数 ， 如 同一 IMEIT、Andriod ID、IDFA 在 平台 注册 的 账号 不 可 超 


过 3 一 5 个 。 
. 限制 设备 登录 : 限制 同一 设备 号 在 平台 上 允许 登录 的 账号 数量 ， 如 同一 设备 号 ， 每 日 可 登录 平台 的 账号 不 得 超过 2 个 。 


“ 限制 活动 参与 次 数 : 一 般 按 照 设备 号 进行 限制 ， 限 制 同一 设备 号 参与 活动 的 次 数 。 即 同一 设备 进行 用 户 切换 操作 时 ， 可 获 
取 的 超额 收益 也 会 受到 限制 。 


@ 引 入 第 三 方 风险 评分 : 引入 个 人 信用 评估 或 个 人 征 信 的 评分 ， 用 于 甄别 用 户 的 风险 性 。 当 用 户 风险 风 较 高 时 ， 禁 止 用 户 进 
行 注册 、 登 录 操作 。 


针对 金融 平台 识别 出 的 羊毛 党 ， 一 般 通 过 事前 限制 的 手段 进行 防治 ， 如 限制 注册 、 限 制 登录 、 限 制 交易 等 ; 另 一 方面 ， 有 些 


平台 由 于 数据 与 技术 实时 性 的 问题 ， 通 常 在 事后 进行 限制 性 的 操作 。 然 而 ， 事 后 进行 限制 性 操作 的 手段 具有 一 定 的 法 律 合 规 性 问 


闪 
oo 


(2) 市 场 解决 方案 存在 的 问题 
由 于 缺乏 有 效 的 技术 手段 、 数 据 手 段 ， 也 缺乏 体系 性 的 运营 手段 ， 金 融 平台 在 处 理 羊 毛 党 的 问题 上 存在 许多 问题 : 


Q@ 数 据 维度 与 数据 广度 不 足 : 仅 依 赖 于 一 方 的 数据 源 ， 面 对 冷 启动 型 的 羊毛 党 ， 平 台 除了 设备 信息 与 账户 信息 ， 防 治 手段 极 
为 有 限 。 另 一 方面 ， 专 业 型 的 羊毛 党 具备 刷机 、 虚 拟 机 模拟 生成 新 设备 号 的 能 力 ， 与 其 批量 的 真实 用 户 信息 共同 使 用 时 ， 单 纯 依 
赖 平台 自身 采集 的 数据 ， 无 法 防治 羊毛 党 。 


@ 第 三 方 风险 评分 对 财富 管理 反 和 欺诈 场景 适用 度 低 : 第 三 方 风险 评分 通常 由 用 户 信贷 场景 囚 积 获取 而 来 ， 虽 然 评分 的 背后 由 
大 量 的 交叉 验证 以 及 风 控 模型 做 支撑 ， 但 由 于 信用 风险 评估 的 核心 在 于 评估 用 户 逾 期 、 违 约 的 风险 ， 而 财富 管理 的 反 欺 诈 核心 在 
于 评估 用 户 斑 羊毛 风险 ， 二 者 Y 值 不 同 。 昌 然 在 欺诈 团伙 上 可 能 存在 一 定 交 集 ， 但 场景 不 同 的 交叉 使 用 会 提升 平台 的 误杀 率 ， 极 
大 地 降低 用 户 体验 。 


@ 防 羊毛 党 意识 不 强 ， 活 动 规则 设计 存在 漏洞 : 许多 金融 平台 在 设计 活动 时 ， 仅 考虑 获 客 的 因素 ， 却 忽略 了 羊毛 党 的 风险 
性 ,活动 设计 时 ， 未 加 入 任何 限制 ， 导 致 活动 成 本 被 羊毛 党 快速 薄 尽 。 由 于 活动 规则 缺失 性 的 设计 ， 如 平台 在 事后 进行 操作 进行 
补救 ， 反 倒 会 将 自身 置 于 合 规 性 的 窒 境 。2015 年 ， 某 互联 网 金融 机 构 开 展 了 注册 返 现 的 获 客 活动 ， 但 未 在 活动 规则 上 注 明 对 异 
常用 户 群 的 识别 与 防治 ; 由 于 活动 规则 的 不 完善 活动 吸引 了 大 规模 的 羊毛 党 接 中 而 至 。 平 台 事后 紧急 采取 可 疑 用 户 取消 资格 的 
操作 ， 导 致 参 与 用 户 无 法 获取 相应 收益 ， 引 发 了 一 场 以 “用 户 ” 自 居 的 羊毛 党 与 平台 的 争论 。 由 此 可 见 活动 事前 规则 设计 与 说 明 
的 重要 性 。 

@@ 自 有 数据 挖掘 不 足 : 一 方 系统 采集 的 用 户 交 易 数据 、 行 为 数据 ， 蕴 合 着 巨大 的 价值 ， 除 了 能 够 支撑 用 户 精细 化 营运 ， 在 反 
欺诈 场景 同样 适用 。 然 而 ， 大 多 数 平台 虽然 拥有 专业 的 数据 分 析 团 队 支 撑 前 端 市 场 营 销 与 运营 的 工作 ， 但 面向 羊毛 党 用 户 欺诈 风 
给 的 主题 鲜 有 团队 问津 。 

因此 ， 资 金 业务 的 财富 管理 平台 争 急需 一 套 能 够 贯穿 用 户 生 命 周 期 的 羊毛 党 治理 解决 方案 ， 从 数据 层面 扩大 数据 的 采集 范 
畴 ， 并 整合 第 三 方 数据 扩充 数据 维度 ; 从 技术 层面 开发 实时 系统 ， 支 撑 防 羊毛 党 工作 的 实时 性 ;从 数据 运营 层面 ， 深 探 存 量 数据 
价值 ， 充 分 挖掘 反 欺 诈 规则 ; 从 业务 运营 层面 ， 提 升 羊毛 党 反 欺 诈 意识 ， 在 运营 工作 开展 前 ， 做 好 事前 的 准备 与 预警 ， 从 根源 上 
控制 羊毛 党 。 


4. 案 例 目标 企业 介绍 和 企业 需求 总 结 


大 数据 行业 在 数据 完整 性 、 数 据 时 效 性 、 数 据 深 度 挖 掘 的 发 展 ， 让 金融 平台 治理 羊毛 党 成 为 了 可 能 。 本 书 以 某 金 融 集团 下 的 
X 理 财 平台 为 例 ， 阐 述 其 在 经 营 过 程 中 遇 到 的 羊毛 党 问题 ， 以 及 借助 其 战略 合作 伙伴 的 能 力 实 现 羊 毛 党 治理 体系 的 构建 。 


(1) 案例 企业 背景 介绍 


X 理 财 平台 是 某 金融 集团 下 最 大 的 资金 端 业务 之 一 ， 用 户 年 投资 金额 过 上 百 亿 人 民 币 。X 理 财 平台 在 过 去 的 一 年 中 ， 用 户 规 
模 与 用 户 投资 额 与 日 俱 增 。 本 年 度 初始 ， 在 年 度 经 营 复 盘 中 发 现 ， 在 交易 用 户 中 ， 具 有 相当 比率 的 用 户 具备 以 下 特征 : 投资 金额 
未 超过 100 元 ， 仅 投资 过 一 单 ， 目 均 参 与 了 返 现 活动 。 通 过 对 用 户 交易 数据 的 分 析 ， 发 现 该 类 用 户 群 平均 每 月 会 消耗 平台 约 50% 
的 活动 成 本 ， 即 每 月 挤占 数 百 万 元 的 活动 成 本 。X 理 财 平台 认为 这 类 用 户 群 极 有 可 能 为 羊毛 党 。 

(2) 案例 企业 羊毛 党 防治 需求 


针对 平台 出 现 类 似 羊 毛 党 投资 行为 的 用 户 ，X 理 财 平台 希望 能 够 建立 羊毛 党 治理 前 置 的 经 营 能 力 ， 帮 助 平台 减少 因 羊 毛 党 带 


来 的 运营 成 本 的 损失 ， 从 而 将 成 本 更 有 效 地 发 挥 在 真实 用 户 上 ， 提 升 用 户 转 化 与 用 户 价值 。 针 对 羊毛 党 防治 ，X 理 财 平台 提出 如 
下 需求 : 

@ 羊 毛 党 防治 前 置 : 通过 对 一 方 数据 的 挖掘 与 三 方 数据 的 整合 ， 建 立 羊毛 党 识别 的 规则 体系 ; 羊毛 党 识别 与 操作 需 前 置 至 用 
户 交 易 前 的 环节 。 

@ 降 低 错 误 率 : 羊毛 党 识别 的 规则 体系 需 尽 可 量 低地 降低 错误 识别 率 ， 避 免 造 成 对 价值 用 户 的 错误 操作 ， 影 响 用 户 体 验 。 

@ 差 异化 经 营 : 羊毛 党 识别 过 程 中 ， 对 用 户 势必 会 进行 分 群 ， 希 望 能 够 针对 不 同 群体 展开 差异 化 的 经 营 方法 。 

@ 控 制 合 规 性 风险 : 结合 羊毛 党 治理 体系 ， 优 化 活动 规划， 避免 出 现 合 规 性 问题 。 

5. 羊 毛 党 大 数据 运营 方法 论 与 实践 介绍 

大 数据 治理 羊毛 党 的 核心 能 力 包 括 人 群 识别 和 人 群 运营 两 大 能 力 。 


@ 依 赖 大 数据 的 羊毛 党 人 群 识别 能 力 : 羊毛 党 人 群 的 识别 能 力 是 羊毛 党 治理 的 基础 ， 是 通过 数据 采集 技术 和 数据 管理 对 用 户 
留 下 的 海量 数据 痕迹 进行 分 析 与 洞察 ， 探 索 羊 毛 党 人 群 的 行为 规则 ， 并 形成 相应 的 规则 知识 库 。 


@ 基 于 大 数据 的 用 户 分 群 运营 能 力 : 在 识别 羊毛 党 后 ， 对 羊毛 党 进一步 细 化 分 析 ， 综 合 评判 各 细 分 人 群 对 平台 的 影响 ， 并 依 
昭平 台 的 目标 制定 差异 化 运营 措施 ， 并 从 技术 和 业务 角度 制定 相应 的 运营 措施 ， 实 现 对 羊毛 人 群 的 防 、 拦 、 拉 、 下 。 


作为 领先 的 大 数据 践 行者 ，TalkingData 建 立 了 完整 的 AOAA 数 据 工程 体系 : 即 通过 “数据 获取 ， 数 据 管 理 ， 数 据 分 析 ， 管 
理 实施 ”形成 羊毛 党 治理 的 运营 闭环 体系 ， 帮 助 金融 平台 实现 羊毛 党 精细 化 、 差 异化 的 管理 。 数 据 工 程 模 型 如 图 19-4 所 示 。 


图 数据 获取 图 数据 管理 
口 数据 整合 

口 第 三 方 工具 接 入 口 数据 清洗 
口 第 三 方 数据 采集 口 数据 增强 


图 技术 实施 图 数据 分 析 
口 规则 引擎 防治 口 数据 洞察 
国运 党 实施 口 规则 体系 建立 
口 差异 化 运营 





图 19-4 ”TalkingData AOAA 数 据 工 程 体系 


(1) 数据 获取 
羊毛 党 的 治理 获取 的 数据 源 包 括 网 络 源 、 用 户 行为 数据 、 一 方 业务 系统 的 行为 数据 以 及 分 析 时 需 整合 的 第 三 方 数据 ， 如 图 
19-5 所 示 。 


网 络 源 数 据 : 网 络 源 数据 包括 一 方 采集 的 设备 指纹 ， 如 IMEI、MAC、IDFA、AndriodID、BSSID 等 。 通 过 TalkingData 
四 十 五 亿 的 设备 信息 ， 能 够 帮助 平台 进一步 扩充 用 户 冷 启动 时 能 够 识别 的 网 络 源 信息 。 


@ 行 为 数据 : 行为 数据 主要 指 代用 户 在 平台 上 如 移动 App、H5、PC 端 操作 行为 留存 的 数据 ， 如 注册 时 间 、 开 户 时 间 、 点 击 


心 分 析 参 数 的 传输 。 


@ 用 户 业务 数据 : 用 户 业务 数据 主要 来 源 于 一 方 业务 系统 ， 数 据 包 括 交易 数据 、 产 品 购买 数据 、 活 动 参与 数据 、 平 台 登 录 数 
据 等 。 一 方 的 业务 数据 主要 用 于 数据 分 析 结 果 的 验证 ， 反 向 确认 规则 的 有 效 性 。 





。IMEI 。 注 册 行 
。BSSID 。 活 动 参 与 行为 
。MAC 。 登 录 行为 

。 基 站 ID 。 提 现行 为 
。AndroidID 。 购 买 流程 行为 
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* 风险 电话 库 





ee 


图 19-5 羊毛 党 治理 数据 获取 


@ 第 三 方 数据 : 由 于 一 方 数据 维度 的 限制 性 ， 需 整合 第 三 方 数据 维度 进行 分 析 ， 如 用 户 的 LBS 信 息 (gps、wifi、celllD ( 基 
站 ) 以 及 IP 地 址 ) 能 够 识别 风险 设备 的 聚集 性 ， 竞 品 安 装 活跃 度 可 以 用 于 推断 用 户 是 羊毛 党 的 可 能 性 等 。 


(2) 数据 管理 


数据 管理 的 核心 是 对 数据 进行 清洗 、 整 合 以 及 增强 ， 保 证 在 数据 分 析 阶 段 数据 的 低 噪 性 、 数 据 视 图 的 完整 性 以 及 数据 的 饱满 
性 ， 如 图 19-6 所 示 。 
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图 19-6 ”数据 管理 


@ 数 据 清洗 : 数据 采集 后 具有 较 大 的 噪音 。 以 网 络 源 信息 为 例 ，1OS 系 统 采集 的 Mac 存 在 俯 Mac， 用 户 登 录 时 间 可 能 存在 丢 


包 导 致 后 续 数据 无 法 匹配 前 次 登录 行为 ，gps 采 集 的 偏差 度 与 设备 世 片 相关 从 而 需 做 校正 。 这 些 都 需要 借助 数据 科学 的 力量 ， 对 
数据 进行 降 噪 清理 ， 保 障 数据 的 质量 。 


@ 数 据 整 合 : 数据 质量 的 问题 解决 后 ， 需 对 一 三 方 数据 进行 整合 打通 ; 同时 保障 在 后 续 的 数据 分 析 时 ， 建 立 起 的 规则 均 能 通 
过 一 方 数据 进行 场景 验证 。 


@ 数 据 增强 : 数据 增强 的 核心 是 对 整合 后 的 数据 ， 结 合 具体 的 应 用 场景 进行 一 定 的 数据 加 工 ， 使 数据 转变 为 具有 场景 合 义 的 
数据 形态 。 通 常 ， 会 结合 专家 知识 以 及 机 器 学 习 算 法 ， 对 数据 进行 增强 。 专 家 知识 主要 由 业务 场景 出 发 ， 结 合 业务 经 验 以 及 运营 
由 标 维度 ， 对 数据 进行 业务 逻辑 的 加 工 处 理 。 机 器 学 习 则 是 有 目标 性 的 ， 结 合 Y 值 对 数据 进行 训练 ， 形 成 数据 分 析 的 特征 变量 。 


数据 增强 阶段 主要 依托 于 RFM 模 型 对 用 户 的 行为 数据 进行 变换 。 由 于 解决 方案 面向 对 象 为 金融 机 构 ， 因 此 将 原始 数据 通过 

RFM 进 行 变换 ， 能 够 强化 数据 的 金融 业务 属性 ， 如 图 19-7 所 示 。 以 网 络 源 为 例 ， 最 近 时 间 使 用 的 网 络 源 ， 如 wifi 环 境 下 ， 可 获取 
用 户 的 BSSID。 数 据 变化 后 : 即 在 以 当前 时 间 连 续 的 时 间 序 列 中 ， 用 户 登录 平台 进行 操作 (指定 活动 参与 行为 ) 时， 触发 该 动作 
的 BSSID。 该 数据 将 用 于 数据 分 析 阶 段 ， 分 析 设 备 的 聚集 性 。 

Monetary 对 用 户 交 易 明 细 ， 进 行 不 同时 间 维 度 汇总 : 
[平均 投资 额度 (历史 值 + 按 周 / 月 / 季 ) 
口 单 笔 交 易 额 度 (历史 max) 
口 ] 活动 券 使 用 额度 (活动 周期 内 ， 累 计 ) 
[ i 








对 用 户 终端 行为 ， 进 行 实时 统计 : 
最 近 交 易 时 间 (注册 后 的 首次 交易 时 间 ) 
最 近 登 录 行为 (产品 购买 后 最 近 一 次 登录 
时 间 ) 
最 近 网 络 源 地 址 (最 近 时 间 点 的 有 D 累计 
Pa 
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对 用 户 终端 行为 ， 进 行 周期 性 汇总 统计 : 

口交 易 频 度 ( 按 周 /月 / 季 时 间 维 度 统计 频 
度 ) 

上 产品 购买 频 度 ( 按 周 /月 / 季 时 间 维 度 统 

计 频 度 ) 

[MACVIPIMEIIDFA 等 频 度 ( 按 周 /日 / 季 
时 间 维 度 统计 频 度 ) 


图 19-7 数据 增强 


(3) 数据 分 析 


数据 洞察 分 析 阶 段 是 规则 体系 建设 最 为 核心 的 过 程 ， 主 要 依赖 于 专家 业务 经 验 、 机 器 学 习 以 及 技术 可 视 化 挖 所 羊毛 党 潜在 的 
关联 性 规则 。 

@ 专 家 经 验 : 与 数据 管理 阶段 的 专家 经 验 相似 ， 在 数据 分 析 阶 段 ， 依 照 专家 的 羊毛 党 反 欺 诈 经 验 对 平台 数据 进行 分 析 ， 包 括 
网 络 源 分 析 、 用 户 行为 分 析 、 交 易 行 为 分 析 以 及 终端 之 外 的 数据 分 析 ， 如 图 19-8 所 示 。 


` 网 络 源 数据 : 以 网 络 源 数据 为 例 ， 最 为 常见 的 规则 是 建立 设备 信息 与 账号 的 映射 关系 。 当 映射 数量 过 高 时 ， 则 可 能 为 羊毛 
党 。 在 图 19-9 中 ，TDID 为 TalkingData 生 成 的 脱 敏 设备 指纹 ，usetID 为 一 方 用 户 标识 。 可 以 看 到 ， 同 一 TDID 映 射 了 大 量 的 用 户 账 


号 ， 即 用 户 通过 同一 设备 进行 了 大 量 账号 的 登录 ， 薄 取 羊 毛 。 
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图 19-8 羊毛 党 反 坎 诈 的 数据 分 析 流程 


| userIDI 
0f657679346576a746c59b011ab4ab96c ，3401925 


0f657679346576a746c59b011ab4ab96c | 3401909 
0f657679346576a746c59b011ab4ab96c | 3573847 
0f657679346576a746c59b011ab4ab96c ! 3128500 
0f657679346576a746c59b011ab4ab96c | 4167249 
0f657679346576a746c59b011ab4ab96c“' 3104713 
0f657679346576a746c59b011ab4ab96c | 4167239 
0fa3ab01d7e15661b94efcalld319fbba ，3410174 
0fa3ab01d7e15661b94efcall1d319fbba | 2642027 
0fa3ab01d7e15661b94efcalld319fbba | 2655465 
0fa3ab01d7e15661b94efcalld319fbba | 2451648 
0fa3ab01d7e15661b94efcalld319fbba | 3358424 
0fa3ab01d7e15661b94efcalld319ftbba ' 4161867 
0fa3ab01d7e15661b94efcalld319fbba | 3581835 
0fa3ab01d7e15661b94efcalld319fbba 2862632 
0fa3ab01d7e15661b94efcalld319fbba | 3167971 
0fa3ab01d7e15661b94efcalld319fbba ，3390951 





图 19-9 设备 指纹 与 用 户 ID 映射 关系 
“ 用 户 行为 数据 : 以 业务 链条 时 间 差 为 例 ， 正 常用 户 登 录 平 台 后 ， 从 注册 到 完成 交易 ， 需 要 一 定时 间 。 经 过 实测 ， 理 财 平 台 
义 的 正常 完成 时 间 在 5min 以 上 。 通 过 对 用 户 群 的 分 析 ， 发 现 有 大 量 用 户 群 完成 相关 业务 操作 时 间 差 极为 一 致 ， 且 均 小 于 5min， 如 
图 19-10 所 示 。 


首次 交易 时 间 首次 注册 时 间 注册 交易 时 间 差 

2015-10-15 17:35:01. 2015-10-15 17:33:09.000 1900-01-04 00:01: 
2015-10-17 10:54:31. 2015-10-17 10:52:39.000 1900-01-01 00:01 : 
2015-10-17 21:01:49. 2015-10-17 20:59:57.000 1900-01-01 00:01 : 
2015-10-20 18:39:50. 2015-10-20 18:37:58.000 1900-01-01 00:01: 
2015-10-21 10:51:45. 2015-10-21 10:49:53.000 1900-01-01 00:01: 
2016-01-15 12:39:55. 2016-01-15 12:38:03.000 1900-01-01 00:01: 
2015-10-21 20:03:31. 2015-10-21 20:01:39.000 1900-01-01 00:01: 
2015-07-03 14:52:52. 2015-07-03 14:51:00.000 1900-01-01 00:01: 
2015-07-03 22:25:25. 2015-07-03 22:23:33.000 1900-01-01 00:01: 
2015-07-04 00:56:34. 2015-07-04 00:54:42.000 1900-01-04 00:01: 
2015-07-04 09:46:34. 2015-07-04 09:44:42.000 1900-01-01 00:01: 
2015-10-22 10:59:57. 2015-10-22 10:58:05.000 1900-01-01 00:01 : 
2015-10-22 14:39:37. 2015-10-22 14:37:45.000 1900-01-01 00:01: 
2015-10-22 15:19:34. 2015-10-22 15:17:42.000 1900-01-01 00:01: 
2015-10-22 15:23:30. 2015-10-22 15:21:38.000 1900-01-01 00:01: 
2015-10-22 16:46:57. 2015-10-22 16:45:05.000 1900-01-01 00:01: 
2015-07-05 14:33:24. 2015-07-05 14:31:32.000 1900-01-01 00:01: 





图 19-10 ”用 户 操作 时 间 差 
@ 技 术 可 视 化 : 建立 “人 -设备 -事件 ”三 者 相关 联 的 关联 知识 图 谱 ， 通 过 图 谱 挖掘 潜在 的 风险 用 户 群 以 及 相关 规则 。 


` 多 层次 关联 识别 : 关联 知识 图 谱 的 建立 ， 将 基于 专家 知识 形成 的 网 络 源 识 别 规则 ， 从 “账户 与 设备 ”的 直接 映射 关系 进行 
了 延伸 ， 实 现 了 多 层级 的 关联 识别 。 图 19-11 中 右上 角 的 点 为 用 户 的 设备 标识 ， 依 照 专 家 知识 ， 该 设备 指纹 仅 关联 至 一 个 账号 ， 
属于 正常 用 户 。 然 而 ， 通 过 图 谱 可 将 该 设备 指纹 关联 至 更 为 广泛 的 社交 图 谱 中 ， 该 设备 关联 超过 10 个 账号 〈 即 手机 号 ) ， 因 此 可 
以 判断 关联 账号 为 羊毛 党 的 风险 性 较 高 。 


. 潜在 规则 挖 气 : 另 一 方面 ， 关 联 知识 图 谱 同 样 能 够 帮助 数据 分 析 人 员 挖 掘 许 多 潜在 规则 。 以 图 19-12 为 例 ， 中 心 点 为 
TalkingData 生 成 的 设备 唯一 标识 TDID。 右 上 片区 点 为 用 户 的 MAC 地 址 ， 左 上 片区 点 为 用 户 的 AndriodID。 下 方 淡 灰色 点 为 用 户 账 
号 ( 即 手 机 号 ) 。 从 关联 图 谱 中 ， 可 以 发 现 ， 该 场景 为 专业 羊毛 党 进行 的 虚拟 机 场景 。 专 业 羊毛 党 通过 虚拟 生成 设备 号 ， 登 录 平 
台 ， 进 行 蒲 取 羊 毛 的 操作 。 因 此 ， 与 之 关联 的 账号 以 及 TDID， 可 标识 为 风险 设备 。 
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图 19-11 基于 图 谱 的 多 层次 关联 关系 的 挖 据 
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图 19-12 ”基于 图 谱 的 规则 挖掘 


@ 机 器 学 习 : 机 器 学 习 的 核心 是 结合 特征 变量 或 规则 ， 训 练 判断 用 户 欺诈 性 的 可 能 性 。 在 此 ， 机 器 学 习 的 输入 有 两 种 : 一 种 
是 在 数据 管理 环节 进行 的 用 户 筛选 ， 对 原始 数据 进行 初始 的 处 理 形成 的 特征 变量 ; 另 一 种 是 以 数据 分 析 过 程 中 (选用 此 方法 ) 形 
成 的 反 欺 诈 规 则 评分 判断 作为 模型 输入 。 如 图 19-13 所 示 。 另 外 ， 以 含有 正 负 样 本 的 历史 用 户 数据 作为 Y 值 ， 进 行 机 器 学 习 训 
练 ， 形 成 模型 ， 最 终 通过 生产 环境 的 验证 ， 逐 步 迭代 优化 模型 。 通 常 运用 的 算法 包括 : 随机 森林 、 神 经 网 络 等 。 
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图 19-13 ”羊毛 党 识别 机 器 学 习 算法 


经 过 数据 分 析 过 程 形成 的 羊毛 党 识别 规则 ， 将 作为 平台 识别 与 治理 羊毛 党 的 核心 技术 支持 。 
(4) 管理 实施 


为 保障 羊毛 党 治理 体系 的 落地 ， 需 要 对 第 三 阶段 “数据 分 析 ” 形 成 的 规则 进行 固化 ; 并 结合 实际 场景 ， 对 用 户 进行 差异 化 的 
运营 操作 ， 如 图 19-14 所 示 。 


羊毛 党 大 数据 治理 体系 


黑 名 单 用 户 潜在 价值 用 户 
口 限制 其 行为 操作 口 根据 战略 /运营 口 客 户 唤醒 与 维系 
目标 调整 群体 规模 


数据 存储 
图 数据 库 





图 19-14 羊毛 党 大 数据 治理 体系 管理 实施 架构 


@ 规 则 固化 与 模型 固化 : 规则 与 模型 的 固化 与 技术 操作 依赖 于 决策 引擎 的 部 署 。 通 过 决策 引擎 ， 固 化 规则 库 ; 当 用 户 进入 平 
台 后 ， 调 用 决策 引擎 的 模式 匹配 器 ， 对 用 户 产生 的 行为 数据 、 业 务 数据 、 网 络 源 数据 与 规则 库 进 行 匹 配 ， 筛 选 识别 用 户 特 征 。 当 
用 户 通过 模式 匹配 器 识别 其 羊毛 党 特征 后 ， 执 行 引 警 会 对 其 进行 模型 评分 ， 如 果 用 户 风险 分 数 过 高 ， 则 依照 业务 场景 需求 ， 对 用 
户 进行 相应 操作 。 如 图 19-15 所 示 。 
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;规则 库 的 规则 进 ! 器 挑选 出 的 羊毛 ， 执行 规则 ,将 羊 ， 
行规 则 匹配 ， 筛 ; 识别 规则 的 执行 ， 毛 用 户 进行 分 群 ， 
' 选 执行 识别 羊毛 ! 时 间 与 执行 周期 ，2. 按照 议程 时 间 ， 
;用 户 的 规则 。“; 2. 管理 用 户 分 群 ;周期 性 执行 规 ， 
' ; 后 的 管理 控制 规 ' 则 ， 对 羊毛 用 户 ， 
| ' 则 的 执行 时 间 与 进行 防治 操作 
( 详 见 运营 实施 ) 


下 一 一 一 一 


图 19-15 决策 引擎 部 署 思路 


@ 羊 毛 党 防治 手段 建议 : 以 活动 为 例 ， 当 理财 平台 X 推 出 加 息 活 动 后 ， 建 议 平台 将 加 息 活 动 规则 修改 为 动态 加 息 。 原 活动 规 
则 为 面向 全 量 用 户 发 放 2% 的 节日 加 息 活 动 券 ;将 规则 修改 为 发 放 0.1% ~ 2% 的 随机 加 息 活动 券 。 当 用 户 被 识别 为 高 风险 的 羊毛 
党 时 ， 决 策 引 警 后 台 则 将 其 获取 的 加 息 券 调整 至 0.1%， 从 而 实现 活动 成 本 损失 的 最 小 化 。 同 时 也 避免 了 活动 欺诈 用 户 的 合 规 性 
问题 。 


@ 差 异化 经 营 : 新 用 户 进入 平台 进行 一 系列 操作 后 ， 通 过 评分 模型 ， 会 形成 不 同类 型 的 用 户 群 : 高 风险 评分 的 羊毛 党 ， 这 类 
用 户 群 列 入 平台 的 黑 名 单 中 ; 中 等 风险 评分 的 用 户 群 ， 列 入 平台 的 灰 名 单 中 ; 低 风 险 评分 的 正常 用 户 ， 列 入 平台 的 价值 用 户 经 营 
人 群 。 


黑 名 单 用 户 : 高 风险 羊毛 党 ， 通 常 采用 机 器 批量 薄 取 奖励 ， 对 平台 的 用 户 经 营 成 本 挤占 最 高 ， 性 质 最 为 恶 败 ， 因 此 需要 对 
该 类 群体 进行 完全 的 治理 与 防治 。 通 


过 
面 ， 在 活动 期 间 ， 对 规则 进行 改造 ， 降 低 运 营 成 本 的 损失 。 


: 灰 名 单 用 户 : 灰 名 单 用 户 对 于 平台 的 影响 较 小 ， 通 常 结合 平台 的 指标 完成 度 ， 对 这 类 群体 参与 奖励 优惠 活动 的 限度 进行 收 


紧 或 放宽 。 
- 正常 用 户 : 正常 用 户 群 归 入 价值 用 户 群体 。 依 照 平 台 的 用 户 运营 体系 进行 经 营 。 


通过 技术 手段 固化 实施 、 运 营 手 段 从 根源 进行 控制 ， 最 后 对 新 用 户 群 进行 分 群 ， 实 现 用 户 的 从 登录 平台 到 端的 差异 化 经 营 。 





羊毛 党 大 数据 运营 体系 能 够 帮助 理财 平台 X 有 效 治理 用 户 ， 核 心 在 于 帮助 平台 建立 了 实时 性 的 数据 与 技术 操作 能 力 ， 从 而 实 
现 了 羊毛 党 防治 工作 前 置 的 预期 目标 。 


@ 实 时 用 户 监测 与 操作 : 羊毛 党 的 防治 要 求 平台 具备 很 强 的 数据 采集 、 处 理 、 加 工 以 及 系统 操作 等 的 实时 性 。 通 过 外 部 数据 
的 实时 供给 与 采集 、 数 据 打通 与 模型 建立 、 内 部 引擎 技术 的 搭建 ， 助 力 平 台 实现 从 无 到 有 ， 从 事后 到 事前 的 羊毛 党 防治 能 力 的 构 
建 。 


@ 治 理 成 效 : 基于 实时 数据 与 引擎 和 体系 化 管理 机 制 的 构建 ， 帮 助理 财 平台 在 羊毛 党 治理 工作 上 取得 了 显著 成 效 。 





图 19-16 羊毛 党 治理 成 效 


从 图 19-16 中 可 以 看 见 ， 自 第 五 月 份 首 次 推出 羊毛 党 大 数据 运营 体现 以 及 技术 平台 后 ， 在 月 度 经 营 复 盘 中 ， 羊 毛 党 规模 有 了 
极 大 的 降低 。 随 着 数据 分 析 的 不 断 深入 ， 羊 毛 党 治理 规则 也 逐步 趋 于 完善 ， 帮 助 平台 实现 了 羊毛 党 规模 质 的 锐 减 ， 有 效 控制 了 营 
销 与 运营 成 本 。 





由 于 羊毛 党 用 户 受 到 了 有 效 控制 ， 平 台 的 营销 与 运营 成 本 得 以 向 价值 投资 用 户 转移 。 在 进行 用 户 分 群 后 ， 针 对 面向 平台 的 真 
实 投资 价值 用 户 ， 平 台 将 机 会 成 本 进行 定向 的 推广 与 投放 ， 开 拓 更 精细 化 的 跨 界 服 务 ， 促 进 价值 用 户 的 规模 得 以 有 效 提升 ， 如 图 
19-17 所 示 。 


另 一 方面 ， 机 会 成 本 向 价值 用 户 的 有 效 转 移 还 促使 了 用 户 复 投 比率 明显 提升 ， 如 图 19-18 所 示 。 


二 目 目 


" 秆 毛 党 。" 投资 用 户 


图 19-17 价值 投资 用 户 与 羊毛 党 用 户 变化 趋势 对 比 


图 19-18 ”价值 投资 用 户 复 投 比率 变化 趋势 





由 于 更 多 的 成 本 转向 价值 用 户 的 经 莒 与 用 户 体验 的 工作 ， 促 使 用 户 复 投 比率 有 了 明显 提升 。 值 得 一 提 的 是 ， 价 值 用 户 的 平均 
投资 额 在 期 间 基本 保持 一 致 ， 这 归 因 于 羊毛 党 治理 能 力 的 建立 ， 实 现 了 用 户 差异 化 经 营 与 成 本 聚焦 ， 不 仅 帮助 平台 实现 了 成 本 
的 “ 节 流 ”， 更 为 平台 实现 了 收益 的 “开源 ”。 


19.3 案例 : 大 数据 在 地 产 领域 的 应 用 


1. 背 景 知识 介绍 


大 数据 和 传统 行业 的 结合 已 经 成 为 大 数据 发 展 的 主流 趋势 ， 但 是 因为 房地产 行业 低频 的 消费 场景 和 极 高 的 专业 壁垒 ， 大 数据 
的 应 用 仍然 处 于 探索 和 尝试 的 阶段 ， 数 据 的 金 矿 还 远 远 没 有 被 挖掘 出 来 。 房 地 产 企业 手中 掌握 着 多 年 来 积累 的 海量 购房 信息 ， 这 
些 信 息 的 有 效 整 理 和 挖掘 ， 可 能 在 大 数据 时 代 ， 为 房 企 们 带 来 新 的 盈利 空间 和 利润 增长 点 。 大 数据 能 够 产生 的 高 价值 ， 如 今 在 整 
个 房地产 行业 中 已 经 成 为 共识 。 尤 其 在 营销 环节 ， 传 统 方式 下 缺乏 对 客户 信息 的 有 效 采集 及 深度 洞察 ， 从 而 无 法 针对 性 地 设计 触 
达 手 段 ; 而 借助 大 数据 工具 ， 可 以 全 方位 刻画 客户 偏好 特征 及 行为 轨迹 ， 对 比 到 访 、 竞 品 、 成 交 不 同 客 群 的 差异 ， 辅 助 营 销 策略 
的 制定 、 指 导 营 销 手段 的 选择 、 优 化 营销 方案 的 执行 。 





(1) 常见 市 场 做 法 及 略 势 


在 房地产 传统 的 营销 获 客 过 程 中 ， 由 于 数据 管理 、 数 据 分 析 等 能 力 不 足 ， 数 据 维度 较 低 等 因素 的 限制 ， 导 致 房地产 行业 积累 
的 大 量 数 据 无 法 被 充分 利用 于 获 客 的 过 程 中 。 在 其 分 析 过 程 中 ， 通 常 采 用 小 样本 抽样 方法 对 用 户 进行 抽样 ， 抽 取 的 样本 基本 占 样 
本 总 体 的 0.04% 左 右 ， 这 样 小 样本 的 抽取 有 很 大 的 概率 会 丢失 一 些 关 键 的 影响 因子 ， 导 致 客 群 特征 分 析 有 偏 。 抽 取样 本 后 ， 通 常 
会 进行 7 ~ 10 天 的 调研 ， 长 周期 的 调研 会 增加 获 客 成 本 。 调 研 选取 的 维度 也 会 比较 单一 ， 对 人 群 的 刻画 能 力 不 足 。 由 于 人 群 抽样 
和 数据 获取 都 是 静态 数据 ， 可 能 会 导致 分 析出 来 的 结果 与 实际 情况 不 符 。 在 分 析 的 最 后 阶段 ， 专 业 人 士 会 介入 进行 定性 描述 ， 从 
而 无 法 保证 分 析 结 果 的 客观 公正 ， 而 且 由 于 之 前 阶段 的 分 析 都 有 可 能 存在 偏差 ， 会 对 专业 人 士 的 判断 产生 较 大 的 影响 。 在 市 场 触 
达 阶 段 ， 基 本 采用 言 目的 扫 街 传单 、 路 边 广 告 牌 等 方式 进行 推广 ， 缺 乏 针对 性 ， 效 率 低下 。 


(2) 目标 企业 需求 


某 地 产 开发 集团 起 步 于 1998 年 ，2009 年 11 月 在 香港 联 交 所 主板 上 市 ， 目 前 已 全 面 完成 基于 未 来 移动 互联 了 网、 客户 大 数据 时 
代 的 业务 战略 布局 。 为 实现 这 一 战略 目标 ， 集 团 以 地 产 营销 、 互 联网 金融 、 社 区 运营 三 个 试点 项 目 为 契机 ， 深 度 发 扬 大 数据 工具 
与 各 业务 板块 的 结合 点 。 就 地 产 营销 而 言 ， 传 统 住宅 营销 模式 下 对 客户 信息 的 收集 仅 限 于 发 生 交 易 的 成 交 客 户 ， 对 目标 客 群 、 到 
访客 群 、 竞 品 客 群 的 信息 掌握 非常 有 限 ， 且 数据 分 散 ， 高 度 依赖 于 人 工 操 作 。 


试点 的 地 产 营销 项 目 是 位 于 热点 二 线 城市 的 商业 住宅 ， 因 商 住 性 质 及 自身 体 量 影响 ， 去 化 压力 较 大 ， 和 希望 借助 大 数据 工具 补 
充 传统 营销 的 不 足 ， 更 精准 地 拓 客 、 更 高 效 地 转化 ， 沉 演出 可 落地 实 操 的 解决 方案 ， 为 后 续 其 他 营销 项 目的 陆续 实践 开创 先河 。 
同时 ， 作 为 多 板块 布局 的 上 市 集团 ， 拥 有 互联 网 金融 、 商 业 、 社 区 物业 等 多 种 经 营业 态 ， 希 望 能 够 将 各 业态 所 触及 的 客户 群体 信 
息 在 集团 内 打通 、 共 享 ， 形 成 持续 、 新 鲜 的 数据 资产 ， 作 为 未 来 业务 交叉 增 长 的 重要 支撑 内 容 。 


(3) 方法 论 


TalkingData 经 过 5 年 来 的 发 展 和 沉淀 ， 形 成 了 独 有 的 方法 论 体系 。 如 图 19-19 所 示 ，TPU 方 法 论 强调 以 流量 /迁徙 
(Traffic) 、 产 品 (Product) 和 客户 〈Usen) 三 方面 的 制约 天 系 为 核心 ， 通 过 标签 体系 等 维度 的 建立 ， 形 成 天 联 性 的 业务 、 数 
据 关联 和 细 分 图 谱 ， 指 导 业 务 策略 的 制定 和 营销 手段 的 开展 。 通 过 分 析 城 市 的 总 体 发 展 和 人 和 群 迁徙 的 总 体 动向 ， 可 以 了 解 人 群 流 
量 ， 明 确 推广 渠道 ;通过 对 竞 品 的 分 析 和 定位 ， 可 以 找到 客户 在 市 场 中 的 地 位 并 制定 更 加 有 针对 性 的 营销 策略 ;通过 对 人 群 的 洞 


察 画像 ， 可 以 对 客户 进行 多 维度 立体 分 析 ， 从 而 进行 精准 的 营销 推广 。 


人 群 迁徙 /城市 发 展 

人 群 洞察 画像 人 群 迁徙 。 城市 发 展 
住宅 地 产 ”商业 地 产 > 历史 发 展 > 同类 项 目 发 展 

i a > 生活 轨迹 “> 区 域外 对 比 项 
> 客户 来 源 > 客 群 背景 流量 活 轨迹 A 寺 比 项 
> 客户 置业 目的 > 客 群 消费 能 Traffic 
> 客户 置业 敏感 分 析 竞争 产品 分 析 
度 分 析 > 消费 偏好 分 析 人 住宅 地 产 ”商业 地 产 

> 市 场 定位 > 主题 定位 





产品 、 > 形象 定位 > 规模 定位 
et > 客户 定位 > 档次 定位 
> 产品 配 比 > 客户 定位 

> 业态 定位 





图 19-19 ”TPU 方 法 论 

2. 目 标 企业 解决 方案 

(1) 整体 方案 描述 

针对 目标 客户 的 需求 进行 分 析 后 ， 结 合 TalkingData 的 方法 论 ， 基 于 SmartDP， 制 定 了 如 图 19-20 所 示 的 解决 方案 。 

方案 从 数据 层面 、 平 台 层面 、 运 营 层 面 和 需求 层面 对 营销 过 程 进行 拆 解 ， 运 用 SmartDP 中 提供 的 灵活 高 效 的 DataApp， 进 
行 高 效 、 精 准 的 分 析 ， 从 而 实现 精准 营销 ， 并 形成 营销 闭环 。 

从 数据 层面 ，SmartDP.DMK 对 营销 中 需要 的 各 类 人 本 数据 进行 采集 和 整理 ， 形 成 干净 可 用 的 数据 集 。 

从 平台 层面 ，SmarDP.DMP 对 从 smart.DMK 中 采集 的 数据 进行 集成 、 打 通 ， 并 对 数据 进行 分 析 和 标签 化 ， 得 到 人 群 的 基本 
特征 ， 并 对 人 群 和 数据 进行 管理 ， 实 现 动态 数据 分 析 。 

从 运营 层面 ， 解 决 方案 将 营销 的 过 程 分 解 为 三 个 步骤 ， 首 先 分 析 到 | 访客 群 、 成 交 客 群 和 竞 品 客 群 的 特征 ， 得 出 潜在 客 群 ， 随 
后 建立 线 上 人 和 群 应 用 偏好 ， 并 对 投放 渠道 有 效 整合 ， 推 荐 最 做 渠道 ;同时 进行 线 下 触 达 。 

最 后 ，TalkingData 借 助 大 数据 工具 ， 全 面 改进 现 有 营销 流程 ， 从 累积 到 访客 群 数据 ( 探 针 获取 ) 开始 ， 全 方位 描摹 客 群 深 


度 特征 (客户 画像 ) ， 达 成 对 目标 客户 的 有 效 触 达 (精准 投放 ) ， 并 有 效 监 测 反馈 (效果 验证 ) ， 形 成 大 数据 思维 指导 下 的 营销 
闭环 ， 实 现 对 上 门 量 提升 、 转 化 率 提 高 、 费 效 比 降低 三 大 核心 环节 的 有 效 助 力 。 


住宅 营销 业务 目标 
需求 


灌 
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提升 上 门 量 率 降低 费 效 比 
SmartDP 住宅 营销 智能 数据 平台 
各 上 让 技 上 
到 访客 群 线 上 应 用 偏好 | 二 级 标签 提升 度 商业 消费 地 
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在 二 


SmartDP DMP 智能 数据 平台 
线 上 线 下 数据 采集 ”数据 集成 和 打通 ”数据 探索 ”画像 标签 加 工 人群 管 理 ”数据 管理 





SmartDP DMK 人 本 数据 
移动 APP 数据 线 下 POI 数据 资产 /消费 数据 “小 区 房价 数据 交通 数据 ”其 他 数据 源 
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图 19-20” 某 房产 住宅 营销 解决 方案 


图 19-21 所 示 为 具体 营销 过 程 中 的 思维 图 庶 ， 具 体 而 言 ， 即 在 筹备 期 辅助 定位 ， 接 触 TD 地 产 行业 标签 体系 ， 精 准 定位 潜 客 人 
群 ， 描 摹 客 群 特征 ， 辅 助 整 体 营销 策略 的 制定 ， 在 蓄 客 期 配合 管理 ， 监 测 营 销 案 场 到 访 情况 ,洞察 到 访客 户 ， 同 时 跟 进 亮 品 客 群 
分 析 ， 实 时 调整 拓 客 方向 ;在 持 销 期 优化 执行 ， 深 度 洞察 成 交 客 群 ， 对 比 到 访客 群 差异 ， 调 整 线 上 线 下 推广 途径 ， 优 化 营销 方 


一 


条 。 
下 面 详细 描述 解决 方案 中 每 一 步 的 实施 过 程 和 效果 。 
(2) 数据 采集 和 整理 
客户 现场 数据 采集 : 通过 在 客户 现场 部 署 WIFI 探 针 ， 可 以 准确 得 到 到 场 客户 的 mac 地 址 、 到 场 时 间 、 离 场 时 间 等 信息 。 
采集 时 间 : 蔷 客 期 3 个 月 直至 开盘 节点 。 


将 客户 收集 的 第 一 方 数据 和 采集 到 的 数据 ， 实 时 上 传 至 SmartDP.DMK 平 台 。 在 SmartDP.DMP 平 台中 ， 对 客户 数据 进行 整 
理 和 结构 化 ， 并 和 TalkingData 的 数据 通过 mac 地 址 进行 打通 。 


数据 将 在 DMP 平 台中 进行 管理 和 加 工 ， 实 时 输出 报表 和 一 系列 分 析 结 果 ， 方 便 运 营 阶 段 制 定 和 调整 策略 。 


TalkingData 住宅 地 产 大 数据 营销 思维 图 谱 
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精准 挖掘 潜在 客 群 实现 触 达 
图 19-21 住宅 地 产 营销 思维 图 谱 
(3) 数据 分 析 和 策略 制定 


通过 实时 上 传 的 数据 进行 案 场 到 访 数据 分 析 。 如 图 19-22 所 示 ， 分 析 日 客流 、 到 访 时 段 、 停 留 时 长 、 峰 值 时 段 统计 、 到 访 频 
次 等 指标 ， 并 通过 持续 监控 ,计算 不 同 周期 范围 内 同比 、 环 比 的 变化 ， 以 及 评估 营销 渠道 策略 在 到 访 数 量 上 的 引流 效果 。 


TalkingData 自 有 的 数据 标签 和 客户 数据 打通 后 ， 可 以 对 客 群 进行 更 加 精细 的 分 析 。 如 图 19-23 所 示 ， 采 集 了 项 目 到 访客 
、 竞 品 客 群 以 及 成 交 客 群 设备 信息 ， 与 TalkingData 数 据 进行 匹配 ， 从 基础 人 口 标签 、 设 备 标签 、 线 上 行为 偏好 和 线 下 轨迹 特 
、 职 住 娱 分 布 等 维度 对 比 人 群 差 异 ， 指 导 竞争 策略 的 调整 。 同 时 结合 竞争 关系 的 强 弱 划分 ， 可 对 单 竞 品 进行 深度 分 析 ， 挖 掘 单 
竞 品 客 群 和 项 目 客 群 在 线 上 偏好 二 级 标签 维度 的 差异 ， 锁 定单 竞 品 客 群 线 下 位 置信 息 ， 辅 助 线 下 截 客 ， 避 免 言 目 扫 街 。 


请 站 


如 图 19-24 所 示 ， 人 口 迁徙 分 析 是 结合 历史 数据 观测 区 域 人 群 的 变化 特征 ， 并 结合 目前 的 客户 分 析 ， 从 而 对 未 来 趋势 有 所 预 
测 。 同 时 结合 区 域 人 口 发 展 特征 ， 可 对 不 通 区 域 发 展 进行 对 比分 析 ， 从 而 选择 更 具 发 展 优势 的 区 域 。 从 区 域 1 和 区 域 2 表现 出 的 
趋势 来 看 ， 区 域 1 更 具 推 广 价值 ， 消 费 能 力 提升 ， 消 费 外 溢 严 重 ， 可 通过 整体 档次 升级 ， 拦 截 外 溢 消 费 。 


如 图 19-25 所 示 ， 通 过 对 区 域内 进行 人 群 洞察 ， 可 以 清楚 地 了 解 区 域内 的 人 群 属性 ， 从 而 制定 精准 的 营销 策略 。 


客流 量 监测 
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图 19-22” 案 场 到 访 数 据 分 析 














购买 力 
RAR 
竞 品 客 群 成 交 客 群 
到 访客 群 
* 手机 低 端 -酷派 。 手 机 中 端 - 华 为 。 手 机 中 高 端 -苹果 

基本 信息 。 青 年 人 群 。 青 年 + 人 和 群 。 青 年 + 人 和 群 
。 母 婴 特征 不 突出 。 有 母 婴 特征 。 有 母 婴 特征 
有 。 游戏 、 社 交 偏 好 。 游戏、 社交 偏好 . 不 喜欢 游戏 

弘 于 行为 。 旅游 、 理 财 需求 不 明显 。 有 旅游 、 理 财 需求 ， 旅游 、 理 财 需求 明显 ， 


* 滴 滴 司机 客户 端 * 滴 滴 司 机 客户 端 关注 外 汇 、 保 险 


线 下 分 布 中 中 部 综合 区 、 南山 龙岗 中 心 区 、 东部 工 。 福田 区 、 南山 区 、 
一 一 一 一 区 、 龙 岗 中 心 区 业 区 、 中 部 综合 区 龙岗 中 心 区 


图 19-23 ”不 同 客 群 洞察 










a) 2015 年 人 群 年 龄 分 b) 2016 年 人 群 年 龄 分 
布 情况 布 情况 c) 2015 年 人 群 婚姻 状况 ”qd) 2016 年 人 群 婚姻 状况 
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图 19-24 ”区域 人 口 迁 徙 特征 
性 别 比例 年 龄 分 布 | 
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图 19-25 ”商业 环境 内 人 群 洞察 


如 图 19-26 所 示 ， 分析 客户 的 高 价值 客户 特征 ， 可 以 发 现 ， 家 庭 类 消费 占据 主导 地 位 ， 其 次 为 女性 和 商务 类 消费 。 针 对 女性 
和 商务 类 客 群 的 推广 措施 可 以 沿用 吸引 工作 日 女性 客 群 的 手法 ， 同 时 提升 品牌 业态 档次 ;对 高 价值 客 群 进行 定向 投放 。 
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图 19-26 ”高 价值 客 群 分 析 


进行 了 全 方位 立体 的 分 析 ， 并 制定 了 相对 的 投放 策略 ， 之 后 要 对 客户 现 有 的 线 上 线 下 触 达 渠道 进行 分 析 ， 如 图 19-27 所 示 。 
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一 到 访 。 ~e= 捕获 率 
图 19-27 线 上 线 下 触 达 渠道 分 析 


从 上 图 可 知 ， 投 放 策 略 在 线 下 广告 选 址 方面 应 该 从 引入 潜 客 占 比 、 捕 获 率 指标 分 析 ， 并 从 场景 化 选 址 等 方向 进行 优化 ， 线 上 
投放 渠道 应 增加 追踪 码 设计 ， 线 上 投放 与 线 下 到 访 匹 配 衡量 投放 效果 ， 引 入 跨 界 营 销 。 


从 营销 层面 上 ， 根 据 分 析 结 果 ， 可 以 给 出 基于 大 数据 的 营销 调整 建议 。 如 图 19-28 所 示 ，TalkingData 基 于 偏好 标签 ,对比 
不 同 客 群 差异 ， 从 而 指导 线 上 推广 渠道 的 筛选 : 建议 以 平安 好 医生 或 有 道 词典 app 作 为 线 上 重点 推广 渠道 。 在 营销 策略 上 ， 建 议 
以 健康 管理 、 自 我 提升 、 高 潜质 投资 作为 营销 的 核心 主题 。 
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图 19-28 营销 场景 分 析 


在 线 下 营销 方面 ，TalkingData 结 合 自 有 线 下 位 置 数据 ， 分 析 不 同 客 群 线 下 出 现 最 多 的 区 域 ， 聚 焦 客 群 线 下 活动 轨迹 ， 验 证 
线 下 推广 效果 ， 并 以 此 修正 未 来 地 推 的 主攻 方向 ， 如 图 19-29 所 示 。 


(4) 广告 投放 评 佑 


在 进行 营销 的 过 程 中 ， 分 别 对 前 期 的 线 上 、 线 下 广告 投放 策略 进行 评估 ， 线 上 通过 分 析 到 访客 群 的 APP 行 为 偏好 层面 ， 计 算 
所 选择 的 媒体 中 实际 到 访客 户 的 安装 率 ， 评 估 线 上 媒体 选取 的 有 效 性 ;对 于 传统 营销 渠道 中 的 线 下 广告 牌 设置 ， 也 通过 线 下 位 置 
的 GPS 点 所 履 盖 的 潜 客人 群 、 到 访 人 群 的 匹配 计算 ， 衡 量 线 下 广告 投放 的 履 盖 率 和 捕获 率 。 根 据 广告 投放 评估 效果 的 好 坏 ， 及 时 
修改 营销 策略 和 投放 策略 ， 不 断 优 化 效果 。 


时 间 段 


9 : 00-11:00 


12:00-14:00 


15:00-17:00 


18:00-21:00 


9 : 00-11:00 


12:00-14:00 


15:00-17:00 


18:00-21:00 


(5) Lookalike 人 群 放 大 


到 访客 群 (聚集 最 多 的 街道 top3) 


小 市 街道 
迈 振 桥 街道 
宝塔 桥 街道 

小 市 街道 
幕府 山 街道 
宝塔 桥 街道 

小 市 街道 
迈 振 桥 街道 
燕子 矶 街道 (并列 ) 
新 街 口 街道 (并 列 ) 
小 市 街道 

迈 和 振 桥 街道 
宝塔 桥 街道 (并 列 ) 
江 清 街 道 (并 列 ) 
小 市 街道 
宝塔 桥 街道 
迈 振 桥 街道 

小 市 街道 
迈 振 桥 街道 

莫 愁 湖 街 道 (并 列 ) 
建 宁 路 街道 (并 列 ) 
小 市 街道 
迈 振 桥 街道 
幕府 山 街道 

小 市 街道 
宝塔 桥 街道 
迈 振 桥 街道 


强 况 品 客 群 (聚集 最 多 的 衔 道 top3) ” 弱 况 品 客 群 (聚集 最 多 的 街道 top3) 


十 花街 道 
锁 金 村 街道 

中 国 南京 软件 谷 
雨 花 街道 
锁 金 村 街道 

中 国 南京 软件 谷 
雨 花 街道 
锁 金 村 街道 

中 国 南京 软件 谷 


雨 花 街道 
锁 金 村 街道 
幕府 山 街道 


锁 金 村 街道 
幕府 山 街道 
雨 花 街道 
锁 金 村 街道 
十 花街 道 
幕府 山 街道 


锁 金 村 街道 
雨 花 街道 
幕府 山 街道 
锁 金 村 街道 
雨 花 街道 
幕府 山 街道 


线 下 营销 策略 建议 


东山 街道 
穆 陵 街 道 
淳 化 街道 
东山 街道 
穆 陵 街道 
淳 化 街道 
东山 街道 
穆 陵 街道 
淳 化 街道 


东山 街道 
穆 陵 街 道 
淳 化 街道 


东山 街道 
淳 化 街道 
穆 陵 街 道 
东山 街道 
淳 化 街道 
穆 陵 街 道 


东山 街道 
穆 陵 街道 
淳 化 街道 
东山 街道 
淳 化 街道 
穆 陵 街道 





TalkingData 在 项 目 中 引入 了 数据 科学 家 团队 ， 以 营销 目标 人 群 作为 种 子 人 群 ， 将 数据 打通 后 ， 用 TalkingData 自 主 研发 的 


Lookalike 算 法 扩大 寻找 相似 人 群 。 再 通过 数据 的 分 析 和 业务 的 解读 ， 制 定 进一步 的 营销 手段 以 获取 客户 。 


3. 项 目 收益 及 应 用 价值 


本 项 目 在 住宅 营销 侧 帮 助 营 销 人 员 实 现 住 宅 产 品 、 


目 收益 前 述 分 为 以 下 几 个 方面 。 


(1) 实现 客户 数据 的 “量变 ” 


和 “质变 ” 


营销 策略 和 客户 的 直接 关联 性 ， 最 有 效 地 寻找 到 “缘分 客户 ”。 


具体 的 项 


在 住宅 案 场 部 署 探 针 ， 共 采集 3 个 月 到 访客 群 数据 ， 并 通过 GPS 围栏 圈定 重点 分 析 区 域 ， 场 景 应 用 更 多 ， 采 集 周 期 更 短 ， 采 
集 方式 更 智能 ， 从 极 少量 的 客户 成 区 数据 ， 扩 大 为 日 活 几 万 的 客户 储备 。 在 较为 落 弱 的 数据 基础 上 ， 实 现 了 数据 “看 得 见 ”、 


“ 采 得 到 ”、 “自动 化 ”、“ 实 时 性 ”， 为 下 一 步 业 务 场景 拓展 和 精准 营销 策略 的 制定 提供 坚实 的 基础 。 


(2) “从 无 到 有 ” 建立 全 面 客 群 画像 


在 项 目 建 设 前， 营销 团队 对 客户 画像 的 认 知 更 多 地 依赖 于 多 年 来 的 销售 经 验 ， 数 据 采集 手段 维度 上 的 欠缺 很 大 程度 上 限制 了 
更 为 精准 地 洞察 描 划 客户 特征 。 通 过 此 项 目 建 设 中 对 原 有 壁垒 的 突破 ，TalkingData 为 项 目 客 户 建 立 了 360 度 全 面 画 像 ， 丰 富 了 
竞 品 客 群 分 析 的 准确 度 ， 数 据 分 析 周 期 从 原 有 的 月 度 级 非 完 整 画像 缩短 到 现在 的 准 实时 展现 。 
在 项 目 产 出 中 ， 通 过 完整 的 客 群 画像 以 及 对 竞 品 的 深入 分 析 对 比 ， 营 销 人 员 能 够 及 时 评估 到 访客 群 与 营销 策略 的 相关 性 ， 以 及 到 


数据 分 析 的 维度 和 视角 ， 提 高 了 对 


访客 群 与 竞 品 客 群 、 成 交 客 群 的 差异 性 ， 依 据 数据 分 析 的 结果 使 营销 人 员 改变 了 以 往 任 经 验 判 断 对 客户 的 认 知 。 


(3) 提供 无 限 业务 应 用 场景 的 可 能 | 


跨 界 营销 、 精 准 获 客 等 业务 模式 的 创新 ， 在 大 数据 与 其 他 行业 尤其 是 金融 行业 的 结合 中 体现 了 日 益 广泛 的 价值 。 对 于 传统 的 
地 产 营销 侧 ，TalkingData 和 凭借 丰富 的 运营 经 验 和 数据 分 析 能 力 帮 助 项 目 更 准确 地 解读 数据 ， 并 进行 业务 场景 的 创新 ， 将 数据 结 
果 应 用 在 营销 策略 制定 中 。 


第 20 草 ”大 数据 分 析 和 数据 驱动 决策 的 思维 实战 


要 做 就 做 大 的 梦 吧 ， 小 的 梦 没有 所 动人 心 的 力量 。 
一 约翰. 沃 尔 夫 冈 . 冯 . 歌德 


过 去 十 五 年 ， 在 商业 基础 设施 方面 的 大 量 投资 提高 了 企业 的 数据 收集 能 力 。 事 实 上 ， 当 今 业 务 的 每 个 方面 均 需要 收集 数据 ， 
其 中 进行 数据 收集 的 常见 环节 有 : 操作 、 制 造 、 供 应 链 管 理 、 客 户 行为 、 营 销 活动 绩效 、 工 作 流程 等 。 同 时 ， 数 据 信息 也 广泛 用 
于 企业 外 部 管理 分 析 ， 例 如 市 场 趋势 、 行 业 新 闻 和 竞争 对 手 的 分 析 。 数 据 科学 是 从 数据 中 提取 有 用 信息 与 知识 的 方法 ， 大 量 的 可 
用 数据 使 得 数据 科学 变 得 更 为 重要 。 


20.1 无 处 不 在 的 数据 机 会 


大 量 可 用 数据 的 存在 使 得 各 行业 的 公司 都 在 致力 于 挖掘 数据 的 价值 优势 。 在 过 去 ， 企 业 往往 是 通过 使 用 统计 学 家 、 建 模 师 和 
分 析 师 团队 手动 探索 数据 集 ， 但 如 今 的 数据 量 和 种 类 远 超过 人 工分 析 的 能 力 。 幸 而 随 着 计算 机 的 发 展 和 网 络 的 普及 ， 以 及 对 数据 
集 的 分 析 算 法 更 广泛 和 深入 的 研究 ， 数 据 科学 原理 和 数据 挖掘 技术 的 应 用 更 加 广泛 。 


数据 挖掘 技术 广泛 应 用 于 市 场 营销 中 ， 如 定向 营销 、 在 线 广告 和 交叉 销售 的 推荐 。 数 据 挖掘 也 可 运用 于 客户 关系 管理 ， 通 过 
分 析 客 户 行 为 ， 进 行 用 户 管 理 和 优化 潜在 客户 价值 。 金 融 业 使 用 数据 挖掘 进行 信用 评分 和 交易 ， 以 及 欺诈 检测 和 人 员 管 理 。 大 多 
零售 商 (从 沃尔玛 到 亚马逊 ) 将 数据 挖掘 应 用 于 从 营销 到 供应 链 管理 的 整个 业务 中 。 许 多 公司 已 经 在 战略 上 将 数据 挖掘 与 数据 科 
学 分 化 开 来 ， 部 分 公司 已 逐渐 发 展 成 数据 挖掘 公司 。 

掌握 数据 分 析 思 维 的 基本 原则 至 天 重要 ， 它 能 指导 我 们 从 数据 的 角度 看 待业 务 ， 从 数据 中 挖 气 价值。 此外， 一 些 特 定 领 域 需 
要 具备 直觉 、 创 造 力 、 常 识 和 领域 知识 。 更 好 的 数据 分 析 思 维 能 够 帮助 你 系统 性 地 解决 问题 ， 提 高 创造 力 和 领域 知识 的 运用 。 


一 般 而 言 ，“ 数 据 科学 ”与 “数据 挖 据 ”这 两 个 概念 是 等 同 的 ， 然 而 许多 个 人 和 组 织 利 用 数据 科学 来 大 肆 宣 传 。 更 深层 面 
上 ， 数 据 科学 是 从 数据 中 提取 知识 的 基本 方法 ， 而 数据 挖掘 是 通过 这 些 方法 和 技术 从 数据 中 提取 知识 。 作 为 专业 术语 ，“ 数 据 科 
”通常 比 传统 的 “数据 挖 气 ” 有 更 广泛 的 应 用 ， 但 数据 挖掘 技术 赋予 了 数据 科学 原理 明确 的 解释 。 


入 


本 章 将 介绍 数据 科学 的 基本 思路 ， 并 通过 相关 的 数据 挖掘 技术 进行 说 明 。 解 决 一 个 问题 可 以 利用 多 种 技术 ， 本 章 强调 思维 而 
非 具体 的 技术 工具 。 


all ee 
一 注 忆 


即使 你 不 会 具体 应 用 数据 科学 ， 你 也 需要 知道 数据 科学 相当 重要 。 数 据 分 析 思 维 能 够 帮助 评估 数据 挖 据 项 目的 价值 。 例 如 ， 
如 果 员 工 、 顾 问 或 潜在 投资 目标 提出 通过 从 数据 中 提取 知识 来 改进 特定 业务 应 用 ， 则 你 应 能 够 系统 地 评估 该 建议 ， 并 确定 其 是 否 


合理 或 有 缺陷 。 数 据 挖 气 项 目 并 不 能 保证 一 定 能 够 成 有 功 ， 但 依旧 值得 尝试 。 你 需要 做 的 是 发 现 项 目 中 的 明显 缺陷 、 不 切实 际 的 假 
设 及 缺失 部 分 。 


下 面 根据 两 个 简单 的 数据 分 析 案 例 来 做 预测 。 


1. 风 风 弗 朗 西 斯 


让 我 们 看 看 2004 年 纽约 时 报 的 一 个 例子 。 





飓风 上 弗朗西斯 在 穿越 加 勒 比 海 的 过 程 中 ， 直 接 将 在 佛罗里达 州 的 大 西洋 海岸 登陆 。 沃 尔 玛 商 店 的 管理 人 员 认 为 ， 这 种 情况 为 
他 们 展示 最 新 的 数据 驱动 武器 之 一 预测 技术 提供 了 一 个 很 好 的 机 会 。 





沃尔玛 首席 信息 官 Linda Dillman 在 风暴 登陆 前 一 个 星期 ， 让 她 的 工作 人 员 根 据 几 个 星期 前 刚 过 去 的 查理 飓风 对 即将 到 来 的 弗 
朗 西 斯 飓风 进行 预测 。 以 沃尔玛 数据 仓库 中 存储 的 数 万 亿 字 节 的 购物 者 历史 记录 为 依据 ， 沃 尔 玛 能 够 预测 “即将 发 生 什 么 ”而 不 
是 “坐等 未 来 到 来 ”。 


在 这 种 情形 下 数据 驱动 的 预测 为 何 是 有 效 的 ? “在 风 风 来 临 ， 人 们 会 买 更 多 的 瓶装 水 ”这 一 预测 有 可 能 是 对 的 。 但 这 一 预测 
未 免 也 太 过 于 明显 了 。 这 种 情况 下 ， 为 什么 还 需要 数据 科学 家 呢 ? 数 据 科学 的 有 用 之 处 在 于 能 够 确定 由 于 飓风 而 增加 的 销售 额 ， 
这 可 以 确保 当地 沃尔玛 有 合适 的 库存 。 数 据 挖掘 还 有 可 能 得 到 如 下 结论 ， 一 种 DVD 在 限 风 到 达 之 前 也 许 一 星期 内 能 在 全 国 的 沃 
尔 玛 售 馨 ， 而 不 仅仅 是 在 飓风 登陆 即将 到 来 的 地 方 售 规 。 这 种 预测 某 种 程度 上 是 有 用 的 ， 但 可 能 比 Dillman 所 想 做 的 差 一 些 。 


从 刚 风 中 发 现 可 预测 的 模型 具有 很 大 的 价值 。 为 了 得 到 比较 精准 的 预测 模型 ， 分 析 师 需要 审查 在 风 风 (如 Charley 
Hurricane) 登陆 之 前 沃尔玛 的 数据 ， 以 确定 不 同 地 区 产品 的 不 同 需求 。 根 据 这 样 的 模式 ， 公 司 能 够 预测 在 刚 风 登陆 之 前 对 商品 
和 仓库 的 特殊 需求 。 


事实 上 ， 这 种 预测 是 有 效 的 。《 纽 约 时 报 》 报 告 说 : 专家 们 挖掘 数据 发 现 商店 确实 需要 某 些 特定 产品 ， 而 不 仪 仪 是 常用 的 手 
电 简 。Dillman 女 士 在 最 近 的 一 次 采访 中 说 : “我 们 过 去 不 知道 草莓 Pop-Tarts 在 飓风 登陆 之 前 的 销售 额 比 平时 增长 了 7 倍 。 在 刚 
风 登 陆 前 最 畅销 的 产品 是 啤酒 。 


2. 预 测 客户 流失 


数据 分 析 是 如 何 实 现 的 ?考虑 另 一 个 更 典型 的 业务 场景 ， 看 看 如 何 从 数据 角度 进行 思考 。 这 个 问题 将 作为 一 个 例子 ， 来 说 明 
本 书 中 提出 的 许多 问题 ， 并 提供 一 个 通用 的 参考 框架 。 


假设 你 刚刚 在 美国 最 大 的 电信 公司 之 一 MegaTelCo 公 司 找到 了 一 个 不 错 的 分 析 工 作 。 他 们 的 无 线 业务 面临 着 客户 留存 问 
题 。 在 大 西洋 中 部 地 区 ，20% 的 手机 客户 在 合同 到 期 时 离开 ， 然 而 获得 新 客户 越 来 越 难 。 由 于 手机 市 场 已 经 人 饱和， 无 线 市 场 的 增 
速 已 经 放 绥 。 通 信 公司 需 要 在 保留 原 有 客户 的 基础 上 ， 吸 引 竞 争 者 的 客户 。 客 户 从 一 个 公司 转换 到 另 一 个 公司 被 称 为 客户 流失 。 
这 种 现象 往往 伴随 着 利益 的 流动 ， 一 个 公司 必须 提供 充足 的 好 处 来 吸引 客户 ， 对 于 另 一 个 公司 而 言 ， 客 户 离开 时 也 将 失去 相应 的 
收益 。 


当 你 面 对 客 户 留 存 问题 并 为 此 设计 解决 方案 时 ， 你 需要 知道 吸引 新 客户 比 保留 现 有 客户 的 代价 更 大 ， 因 此 大 量 的 营销 预算 应 
用 于 防止 客户 流失 。 营 销 部 门 已 经 设计 了 一 个 针对 留存 的 营销 方案 。 你 的 任务 是 制定 一 个 具体 的 操作 计划 ， 告 诉 数据 科学 团队 应 
该 怎样 使 用 MegaTelCo 的 庞大 的 数据 资源 ， 以 决定 哪些 客户 应 在 合同 期 满 前 提供 留存 营销 方案 。 


仔细 考虑 可 能 使 用 的 数据 以 及 如 何 使 用 它们 。 具 体 来 说，MegaTelCo 如 何 选择 一 组 客户 了 解 他 们 的 报价 ， 以 便 更 好 地 减少 
用 于 激励 留存 的 预算 ”回答 这 个 问题 比 开始 看 起 来 复杂 得 多 。 我 们 会 反复 回 到 这 个 问题 ， 在 理解 基本 数据 科学 概念 的 同时 ， 更 好 
地 理解 解决 方案 的 复杂 性 。 


二 由 Rs 


I’ 
实际 上 ， 客 户 保留 一 直 是 数据 挖掘 技术 的 主要 应 用 场景 ， 尤 其 是 在 电信 和 金融 业务 中 。 这 些 也 是 最 早 和 广泛 使 用 数据 挖掘 技 


术 的 目的 ， 原因 稍 后 讨论 。 


20.2 ”数据 科学 、 数 据 工程 和 数据 驱动 决策 


数据 科学 涉及 解释 现象 的 (自动 ) 数据 分 析 原 理 、 过 程 和 技术 。 由 于 和 企业 利益 紧密 相关 ， 本 书 将 改进 决策 作为 数据 科学 的 
最 终 目 标 。 

图 20-1 将 数据 科学 放 在 与 其 密切 相关 的 环境 以 及 数据 相关 的 过 程 中 。 它 将 数据 科学 与 数据 处 理 的 其 他 方面 区 分 开 来 ， 数 据 
科学 在 业务 中 越 来 越 受 到 重视 。 我 们 从 图 的 项 部 开始 说 明 。 


数据 驱动 决 菏 
(在 整个 公司 ) 








自动 化 DDD 
数据 科学 





数据 工程 和 处 理 


(包括 大 数据 拉 术 ) 


本 要 要 本 本 本 





本 本 


”数据 处 理 的 其 他 视 极 影响 “… 
“(例如 ， 快 速 业务 处 理 ) 


Yn 


图 20-1 ”在 各 种 数据 相关 过 程 情形 下 的 数据 科学 


数据 驱动 决策 (DDD) 指 的 是 基于 数据 分 析 的 决策 ， 而 不 是 纯粹 基于 直觉 。 例 如 ， 营 销 人 员 可 以 仅仅 基于 在 领域 内 的 长 期 
经 验 和 自己 的 直 沉 来 选择 广告 。 或 者 ， 他 可 以 根据 消费 者 对 不 同 广 告 反 应 的 数据 进行 分 析 选 择 。 他 也 可 以 使 用 这 些 方法 的 组 合 。 
DDD 不 是 一 个 全 或 无 的 做 法 ， 不 同 的 公司 或 多 或 少 地 涉及 DDD。 


数据 驱动 决策 的 收益 最 终 得 以 证 实 。 沃 顿 商 学 院 的 Erik Brynjolfsson 和 他 的 同事 们 进行 了 一 项 关于 DDD 如 何 影响 企业 绩效 
的 研究 (Brynjolfsson，Hitt&Kim，2011) 。 他 们 制定 了 DDD 的 度量 ,评估 企业 使 用 数据 为 公司 做 决策 的 程度 。 研 究 表明 ， 在 
统计 意义 上 ， 一 个 企业 的 数据 驱动 越 强 ， 它 的 生产 力 就 越 强 ， 甚 至 能 够 控制 一 系列 可 能 的 混杂 因素 。 在 DDD 标 度 上 的 一 个 标准 
偏差 对 应 于 生产 率 增加 的 4% ~ 6%。DDD 还 与 资产 收益 率 、 净 资产 收益 率 、 资 产 利 用 率 和 市 场 价值 相关 ， 并 且 这 种 关系 似乎 是 


我 们 将 感 兴趣 的 决策 类 型 分 为 两 种 : (1) 制定 “发 现 型 ”的 决策 ; (2) 重复 的 决策 ， 特 别 是 大 规模 的 决策 。 因 此 ， 即 使 
基于 数据 分 析 的 决策 精度 有 微小 增加 ， 收 益 仍然 能 够 增加 。 上 面 的 沃尔玛 示例 说 明了 第 1 类 问题 :Linda Dilman 想 要 通过 数据 
帮助 沃尔玛 为 飓风 弗 朗 西 斯 的 即将 到 来 做 准备 。 


2012 年 ， 沃 尔 玛 的 竞争 对 手 Target 公 司 发 布 了 自己 的 数据 驱动 型 决策 案例 ， 也 是 第 1 类 问题 (Duhigg，2012) 。 和 大 多 数 
零售 商 一 样 ，Target 关 心 消费 者 的 购物 习惯 、 购 物 动机 以 及 影响 购物 的 因素 。 消 费 者 往往 有 固定 的 购物 习惯 ,非常 难以 改变 。 
然而 ，Target 的 决策 者 知道 ， 新 的 婴儿 是 家 庭 中 的 一 个 转折 点 ， 人 们 会 明显 改变 购物 习惯 。Target 分 析 师 表示 ，“ 一 旦 他 们 从 
我 们 那里 购买 尿布 ， 他 们 就 要 开始 购买 一 切 了 ”。 大 多 数 零售 商 知道 这 一 点 ， 所 以 他 们 互相 竞争 ， 试 图 将 婴儿 相关 产品 销售 给 新 
的 父母 。 由 于 大 多 数 出 生 记 录 是 公开 的 ， 零 售 商 可 以 获得 有 关 出 生 的 信息 ， 并 向 新 父母 发 送 促销 优惠 。 


然而 ，Target 想 要 在 竞争 中 脱颖而出 。 他 们 采取 的 方法 是 预测 人 们 是 否 期 待 新 生 儿 的 到 来 。 如 果 可 以 成 功 预 出， 他 们 能 
在 竞争 对 手 之 前 为 潜在 用 户 提供 优惠 ， 从 而 获得 优势 。 使 用 数据 科学 的 技术 ，Target 分 析 了 怀孕 的 客户 的 历史 数据 ， 并 且 提 取 
了 可 以 预测 哪些 消费 者 怀孕 的 信息 。 例 如 ， 怀 孕 母 杀 经 常 改 变 饮食 、 衣 柜 、 维 生 素 方案 等 。 这 些 指标 可 以 从 历史 数据 中 提取 ,组 
装 成 预测 模型 ， 然 后 落实 为 具体 的 曹 销 活动 。 一 个 预测 模型 将 世界 的 复杂 性 抽象 化 ， 聚 焦 于 一 组 与 一 定 利益 相关 的 特定 指标 上 
(哪些 客户 将 会 流失 ， 潜 在 客户 等 ) 。 重 要 的 是 ， 在 沃尔玛 和 Target 的 例子 中 ， 数 据 分 析 并 不 是 测试 一 个 简单 的 假设 。 相 反 ， 
探索 数据 是 希望 发 现 有 用 的 东西 。 


客户 流失 示例 说 明了 第 2 类 DDD 问 题 。MegaTelCo 拥 有 数 亿 客户 ， 每 个 客户 都 有 流失 的 可 能 。 每 个 月 都 有 数 以 万 计 的 合同 
到 期 ， 因 此 每 个 客户 在 不 久 的 将 来 都 有 流失 的 可 能 。 如 果 能 够 提高 预测 客户 流失 的 能 力 ， 那 么 将 这 种 能 力 应 用 于 数 百 万 客户 ， 便 
能 够 获得 巨大 的 收益 。 同 样 的 逻辑 适用 于 许多 领域 ， 我 们 已 经 看 到 了 数据 科学 和 数据 挖掘 的 大 量 应 用 : 直接 营销 、 在 线 广告 、 信 
用 评分 、 金 融 交 易 、 帮 助 台 管理 、 欺 诈 检 测 、 搜 索 排名 、 产 品 推荐 等 。 


图 20-1 显 示 了 支持 数据 驱动 决策 的 数据 科学 ， 但 也 与 数据 驱动 的 决策 部 分 重 者 。 这 展示 了 经 常 被 忽视 的 事实 : 越 来 越 多 的 
商业 决策 是 由 计算 机 系统 自动 完成 的 。 不 同行 业 采用 不 同 的 自动 决策 。 金 融和 电信 行业 是 早期 采用 者 ， 主 要 是 因为 他 们 早期 开发 
数据 网 络 和 实施 大 规模 计算 ， 人 允许 大 规模 数据 的 汇总 和 建 模 ， 以 及 将 所 得 模型 应 用 于 决策 。 


在 20 世 纪 90 年 代 ， 自 动 化 决策 大 大 改变 了 银行 和 消费 信贷 行业 ， 银 行 和 电信 公司 还 实施 了 大 规模 系统 来 管理 数据 驱动 的 其 
诈 控 制 决 策 。 随 着 零售 系统 的 计算 机 化 ， 商 品 决策 也 实现 了 自动 化 。 著 名 的 例子 包括 Harrah 的 赌场 奖励 计划 以 及 亚马逊 和 
Netflix 的 自动 推荐 。 目 前 ， 我 们 可 以 看 到 ， 广 告 的 革命 在 很 大 程度 上 是 由 于 消费 者 在 网 上 消费 的 时 间 大 大 增加 ， 以 及 在 线 (在 
字面 上 ) 做 出 分 秒 的 广告 决策 的 能 力 。 


20.3 ”数据 处 理 和 大 数据 


有 很 多 数据 处 理 不 是 数据 科学 。 数 据 工 程 和 数据 处 理 对 于 数据 科学 至 关 重 要 ， 而 且 它 们 的 应 用 更 加 普遍 。 例 如 ， 现 今 许多 数 
据 处 理 技能 、 系 统 和 技术 常常 被 误 认 为 是 数据 科学 。 要 理解 数据 科学 和 数据 驱动 的 业务 ， 就 必须 要 了 解 两 者 的 差异 。 数 据 科学 需 
要 访问 数据 ， 受 益 于 数据 处 理 技 术 对 复杂 数据 工程 的 帮助 ， 但 这 些 技术 本 身 不 是 数据 科学 技术 。 如 图 20-1 所 示 ， 这 些 技术 能 


支持 数据 科学 ， 但 是 它们 有 更 加 广泛 的 运用 。 数 据 处 理 技术 对 于 许多 面向 数据 的 业务 非常 重要 ， 这 些 业务 任务 不 涉及 提取 知识 或 
数据 驱动 决策 ， 例 如 高 效 的 事务 处 理 、 现 代 网 络 系统 处 理 和 在 线 广告 活动 管理 。 


“大 数据 ”技术 (如 Hadoop、HBase 和 MongoDB) 最 近 受 到 媒体 的 广泛 关注 。 大 数据 本 质 上 意味 着 对 于 传统 数据 处 理 系 
统 来 说 过 大 的 数据 集 ， 因 此 需要 新 的 处 理 技术 。 与 传统 技术 一 样 ， 大 数据 技术 用 于 许多 任务 ， 包 括 数据 工程 。 有 时 ， 大 数据 技术 
会 直接 用 于 进行 数据 挖掘 。 然 而 ， 通 常 大 数据 技术 被 用 于 数据 处 理 以 支持 数据 挖掘 技术 和 其 他 数据 科学 活动 ， 如 图 20-1 所 示 。 


前 面 讨论 了 Brynjolfsson 的 研究 ， 证 明了 数据 驱动 决策 的 优势 。 由 纽约 大 学 斯 特 恩 学 校 的 经 济 学 家 Prasanna Tambe 进 行 的 
一 项 单独 的 研究 考察 了 大 数据 技术 帮助 企业 的 程度 (Tambe，2012) 。 他 发 现 ， 在 控制 各 种 可 能 的 混杂 因素 之 后 ， 使 用 大 数据 
技术 与 显著 的 额外 生产 力 增长 相关 。 具 体 来 说 ， 与 普通 公司 相 比 ， 高 一 个 标准 差 的 大 数据 技术 利用 率 ， 人 生产率 将 提高 1% ~ 3%; 
而 大 数据 利用 率 低 一 个 标准 偏差 将 导致 生产 率 降低 1% ~ 3%。 因 此 ， 极 端 情况 下 ， 不 同 的 大 数据 技术 利用 率 会 导致 企业 之 间 存 在 
潜在 的 巨大 的 生产 率 差异 。 


20.4 从 大 数据 1.0 到 大 数据 2.0 


理解 大 数据 技术 状态 的 一 种 方式 是 通过 互联 网 技术 业务 进行 类 比 。 在 Web 1.0 中 ， 企 业 通 过 基本 的 互联 网 技术 建立 网 络 ， 实 
现 电 子 商 务 ， 提 高 运营 效率 。 我 们 处 于 大 数据 1.0 的 时 代 ， 企 业 正在 通过 大 数据 处 理 来 支持 目前 的 运作 ， 如 提高 效率 。 


一 旦 公司 完全 掌握 了 Web 1.0 技 术 (在 这 个 过 程 中 降低 了 底层 技术 的 价格 ) ， 便 开始 向 前 看 。 他 们 开始 思考 Web 可 以 做 什 
， 以 及 如 何 改进 ， 于 是 便 进入 了 Web 2.0 时 代 ， 新 的 系统 和 公司 开始 利用 Web 的 互动 性 。 这 种 思想 转变 带 来 的 变化 是 普遍 
的 ， 最 明显 的 是 结合 社会 网 络 组 件 ， 个 人 消费 者 (和 公民 ) “声音 ”的 兴起 。 


N 


我 们 应 该 紧 随 大 数据 1.0， 并 期 待 大 数据 2.0 阶 段 的 到 来 。 一 旦 公司 有 能 力 以 灵活 的 方式 处 理 海量 数据 ， 他 们 应 该 开始 思考 : 
现在 可 以 做 哪些 以 前 不 能 做 的 事 , 或 者 哪些 事 比 以 前 做 得 更 好 ? 这 可 能 是 数据 科学 的 黄金 时 代 。 本 书 中 介绍 的 原理 和 技术 在 今后 
将 会 有 更 广泛 和 深入 的 应 用 。 
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值得 注意 的 是 ， 在 Web 1.0 时 代 ， 一 些 早 期 的 公司 应 用 Web 2.0 的 想法 就 远 远 超过 主流 。 亚 马 逊 是 一 个 很 好 的 例子 ， 早 期 产品 
评价 便 融 入 消费 者 的 “声音 ”。 同 样 ， 我 们 看 到 一 些 公 司 已 经 在 应 用 大 数据 2.0。 亚 马 逊 仍然 是 一 家 处 于 时 代 前 沿 的 公司 ， 它 提 
供 来 自 海量 数据 的 数据 驱动 推荐 。 又 比如 ， 在 线 广告 客户 必须 处 理 极 大 量 的 数据 〈 每 天 数 十 亿 次 广告 展示 并 不 罕见 ) ， 并 维持 非 
常 高 的 吞吐 量 ( 实 时 出 价 系 统 在 几 十 毫秒 内 做 出 决策 ) 。 类 似 行业 的 大 数据 和 数据 科学 的 进展 同样 可 以 关注 ， 并 考虑 采纳 其 运用 
于 其 他 行业 。 


20.5 ”数据 和 数据 科学 能 力作 为 战略 资产 


前 面 提 出 了 数据 科学 的 基本 原则 之 一 : 数据 ， 以 及 从 数据 中 提取 核心 知识 的 能 力 ， 应 被 视 为 天 键 战略 资产 。 太 多 企业 认为 数 
据 分 析 主 要 为 实现 现 有 数据 的 价值 ， 而 且 忽略 企业 是 否 有 适当 的 分 析 人 才 。 通 常 ， 我 们 没有 准确 的 数据 和 合适 的 人 才 来 进行 数据 
驱动 的 决策 。 将 数据 和 数据 科学 能 力 视 为 资产 ， 能 够 使 我 们 明确 地 思考 对 其 投入 多 少 ， 并 使 我 们 认识 到 两 者 是 互补 的 。 如 果 没有 
适当 的 数据 ， 最 好 的 数据 科学 团队 也 不 能 发 挥 价值 ; 如 果 没 有 合适 的 数据 科学 人 才 ， 正 确 的 数据 通常 也 不 能 大 幅 改善 决策 。 与 其 


他 所 有 资产 一 样 ， 数 据 科 学 也 有 必要 进行 投资 。 构 建 一 流 的 数据 科学 团队 是 一 项 非常 重要 的 工作 ， 能 够 产生 有 巨大 差异 的 决策 。 
下 面 通过 案例 研究 介绍 如 何 投资 数据 资产 能 够 发 挥 最 大 的 价值 。 


我 们 来 看 20 世 纪 90 年 代 Signet 银 行 的 经 典故 事 。 在 20 世 纪 80 年 代 ， 数 据 科 学 改变 了 消费 信贷 的 业务 。 对 违约 概率 进行 建 
模 ， 使 得 行业 从 个 人 违约 可 能 性 评估 转变 为 大 规模 的 可 行 战略 ， 同 时 带 来 了 规模 经 济 。 现 在 看 来 也 许 很 奇怪 ， 但 当时 信用 卡 基本 
上 统一 定价 ， 原 因 有 两 个 : (1) 公司 没有 足够 大 的 信息 系统 来 处 理 大 规模 的 差异 定价 ， (2) 银行 管理 层 认 为 客户 不 会 支持 价 
格 歧视 。 在 1990 年 左右 ， 两 位 战略 远见 者 (Richard Fairbanks 和 Nigel Morris) 意识 到 ， 信 息 技术 非常 强大 ， 能 够 实现 本 书 中 
讨论 的 技术 并 做 复杂 的 预测 建 模 ， 同 时 他 们 提出 许多 术语 (如 : 定价 、 信 用 限额 、 低 初始 利率 余额 转移 、 现 金 返 还 、 忠 诚 度 积 分 
等 ) 。 然 而 ， 此 二 位 没有 成 功 说 服 大 银行 将 他 们 当 作 顾问 ， 最 后 ， 在 大 银行 碰壁 后 ， 他 们 成 功 地 在 弗吉尼亚 州 的 一 个 小 型 银行 
一 一 Signet 银 行 获得 成 功 。Signet 银 行 的 管理 层 确信 ， 对 盈利 建 模 预测 而 不 只 是 对 违约 概率 预测 ， 是 正确 的 策略 。 他 们 发 现 银 
行 从 信用 卡 业务 中 获得 的 利润 实际 上 基本 来 源 于 一 小 部 分 客户 (因为 其 余 的 是 角 亏 平衡 或 亏损 ) 。 如 果 能 够 建立 禹 利 预 测 模型 ， 
便 能 够 向 最 好 的 客户 和 银行 客户 中 的 “脱脂 奶油 ”提供 更 好 的 报价 。 


但 是 ，Signet 银 行 在 实施 这 一 战略 时 面临 一 个 非常 大 的 问题 。 他 们 没有 适当 的 数据 建立 僵 利 模型 来 向 不 同 的 客户 提供 不 同 的 
条 款 。 由 于 银行 利用 一 组 特定 的 条 款 和 违约 模型 建立 客户 信用 的 同时 ， 也 可 以 利用 这 些 数 据 建立 僵 利 模型 (1) 在 过 去 提供 的 真 
实 条 款 ， 以 及 (2) 提供 的 真实 信用 〈 即 通过 已 有 模型 来 判断 信用 ) 。 


Signet 银 行 应 该 怎么 做 ”他 们 发 挥 数据 科学 的 基本 策略 : 以 最 低 成 本 获取 必要 的 数据 。 一 旦 将 数据 视 为 商业 资产 ， 就 应 该 考 
虑 是 否 以 及 投资 多 少 。 在 Signet 的 案例 中 ， 通 过 实验 根据 不 同 信用 客户 的 僵 利 模型 生成 数据 ， 随 机 向 不 同 的 客户 提供 不 同 条 款 。 
在 数据 分 析 思 维 的 角度 来 看 ， 这 种 做 法 可 能 思春 地 失去 利益 ! 然而 ， 在 这 种 情况 下 ， 损 失 的 利益 是 收集 数据 的 代价 。 数 据 分 析 思 
想 家 需要 考虑 数据 是 否 具 有 足够 的 价值 来 证 明 投资 的 合理 性 。 


那么 Signet 银 行 随后 发 生 了 什么 呢 ? 不 出 预料 地 ， 当 Signet 开 始 向 客户 随机 提供 条 款 以 获取 数据 时 ， 坏 账 的 数量 峰 升 。 
Signet 从 业界 领先 的 “ 退 款 ” 率 (2.9% 的 余额 未 支付 ) 到 接近 6% 的 退 款 。 损 失 持续 了 几 年 ， 而 数据 科学 家 根据 数据 构建 和 评估 
预测 模型 ， 并 利用 其 提高 利润 。 因 为 该 公司 将 前 期 的 损失 视 为 对 数据 的 投资 ， 尽 管 有 利益 相关 者 的 投诉 ， 他 们 仍 坚 持 该 策略 。 最 
终 ，Signet 的 信用 卡 运作 成 功 转型 ， 与 银行 的 其 他 业务 分 离 ， 并 成 功 超越 消费 信贷 。 


Fairbanks 和 Morris 成 为 董事 长 兼 首席 执行 官 兼 总 裁 和 首席 运营 官 ， 并 开始 在 整个 业务 中 应 用 数据 科学 : 不 仅 是 获取 客户 ， 
还 包括 客户 保留 。 当 客户 需要 更 好 的 报价 时 ， 数 据 驱 动 模型 能 够 计算 各 种 可 能 报价 (不 同 的 报价 ， 包 括 当 前 的 报价 ) 的 潜在 盈利 
能 力 ， 客 户 服 务 代 表 的 计算 机 能 够 提供 最 理想 的 报价 。 


你 可 能 没有 听 说 过 小 信用 银行 ， 但 如 果 你 正在 读 这 本 书 ， 你 可 能 听 说 过 让 产 易 股 : Capital One。Fairbanks 和 Morris 的 新 
公司 发 展 成 为 业内 最 大 的 信用 卡 发 行商 之 一 ， 也 是 拥有 最 低 收费 率 的 银行 之 一 。 据 报道 ， 在 2000 年 ， 该 银行 共 进 行 了 45000 


个 “科学 测试 ”。 


很 难 找到 对 数据 资产 的 价值 进行 明确 定量 演示 的 研究 ， 主 要 原因 是 公司 不 愿 透露 战略 价值 。Martens 和 Provost (2011) 的 
一 项 研究 是 个 例外 ， 他 们 评估 了 银行 消费 者 的 具体 交易 数据 能 否 改进 模型 ， 从 而 为 消费 者 提供 合适 的 产品 。 银 行 根据 数据 建立 模 
型 ， 向 不 同 的 客户 提供 不 同 的 产品 。 此 项 研究 调查 了 多 种 不 同类 型 的 数据 及 其 对 预测 绩效 的 影响 。 社 会 人 口 统计 数据 为 预测 哪 种 
类 型 的 客户 更 有 可 能 购买 哪 种 类 型 产品 提供 了 可 能 。 然 而 ， 社 会 人 口 统计 数据 的 用 途 仅仅 止 于 此 ， 它 没有 额外 的 作用 。 相 比 之 
下 ， 同 时 利用 关于 客户 个 人 (匿名 化 ) 交易 的 详细 数据 能 够 充分 提高 性 能 。 这 种 结果 显而易见 ， 在 Martens 和 Provost 的 调查 研 
究 中 ， 他 们 发 现 ， 利 用 更 多 的 数据 ， 预 测 性 能 将 可 能 继续 改善 ， 至 少 没有 减轻 的 迹象 。 这 具有 重要 的 意义 : 具有 更 大 数据 资产 的 
银行 可 能 具有 更 加 重要 的 战略 优势 。 如 果 银 行 能 够 利用 复杂 的 分 析 ， 那 么 具有 更 大 数据 资产 的 银行 应 该 能 够 更 好 地 识别 特定 产品 
的 最 佳 客户 。 最 终 的 结果 将 是 增加 银行 产品 的 利用 率 ， 降 低 客 户 收购 成 本 ， 或 两 者 兼 而 有 之 。 


数据 作为 战略 资产 的 想法 当然 不 限于 Capital One， 甚 至 不 限于 银行 业 。 亚 马 逊 能 够 在 早期 便 开 始 收集 在 线 客户 的 数据 ， 这 


带 来 了 重大 的 转换 成 本 : 亚马逊 为 消费 者 提供 的 产品 排行 和 推荐 。 亚 马 逊 由 此 可 以 更 容易 地 留存 客户 ， 甚 至 可 以 收取 溢价 
(Brynjolfsson &Smith，2000) 。Harrah 的 赌场 在 收集 和 挖掘 财 徒 的 数据 方面 做 了 很 好 的 投资 ， 从 20 世 纪 90 年 代 中 期 赌场 业 
务 的 小 玩家 发 展 到 2005 年 收购 Caesar 娱 乐 公司 并 成 为 世界 上 最 大 的 赌博 公司 。Facebook 的 巨大 佑 值 被 归功 于 其 庞大 且 独 特 的 
数据 资产 (Sengupta，2012) ， 包 括 关 于 个 人 及 其 喜好 信息 ， 以 及 社交 网 络 结构 的 信息 。 关 于 网 络 结构 的 信息 已 经 被 证 明 对 于 
预测 非常 重要 ， 并 且 在 建立 某 些 产品 的 潜在 客户 群体 的 预测 模型 中 也 是 非常 有 价值 的 (Hill，Provost&Volinsky，2006) 。 很 
明显 ，Facebook 拥 有 庞大 的 数据 资产 ， 而 他 们 是 否 有 正确 的 数据 科学 战略 来 充分 利用 这 些 数据 资产 是 一 个 悬而未决 的 问题 。 


之 后 ,我 们 将 更 详细 地 讨论 这 些 成 功 故事 背后 的 许多 基本 概念 ， 并 探索 数据 挖掘 和 数据 分 析 思 维 的 原则 。 


20.6 数据 分 析 思 维 


分 析 案 例 研究 (例如 客户 流失 问题 ) 提高 了 我 们 以 “数据 分 析 ” 方 式 处 理 问题 的 能 力 。 培 养 这 样 的 思考 角度 并 提高 分 析 能 
是 本 章 的 主要 目标 。 面 对 业务 问题 时 ， 应 该 能 够 评估 数据 能 否 且 如 何 提高 性 能 。 我 们 将 讨论 一 套 促进 仔细 思考 的 基本 概念 和 原 
则 ， 并 提出 系统 的 分 析 框 架 。 


如 之 前 所 言 ， 了 解数 据 科 学 很 重要 ， 即 使 你 从 来 不 打算 自己 做 ， 因 为 数据 分 析 现在 对 于 业务 战略 至 关 重要 。 企 业 越 来 越 多 地 
利用 数据 分 析 驱 动 ， 因 此 企业 间 和 企业 内 的 交互 方面 具有 很 大 的 专业 优势 。 了 解 基本 概念 、 具 有 数据 分 析 思 维 不 仅 促进 交互 ， 而 
且 将 增加 改进 数据 驱动 决策 的 机 会 ， 或 者 看 清 面向 数据 的 竞争 威胁 。 


许多 传统 行业 的 公司 正在 利用 新 的 和 已 有 的 数据 资源 来 获得 竞争 优势 。 他 们 利用 数据 科学 团队 引进 先进 技术 ， 以 增加 收入 、 
降低 成 本 。 此 外 ， 许 多 新 公司 正在 开发 数据 挖掘 作为 关键 的 战略 部 分 。Facebook 和 Twitter 以 及 许多 其 他 “数字 100” 公 司 ( 商 
业内 幕 ，2012) ， 因 致力 于 捕获 或 创造 数据 资产 而 获得 高 估 值 。 管 理 人 员 越 来 越 需要 监督 团队 和 分 析 项 目 ， 营 销 人 员 必 须 组 织 
和 理解 数据 驱动 ， 风 险 资本 家 必须 能 够 明智 地 投资 具有 大 量 数据 资产 的 企业 ， 商 业 战 略 家 必须 能 够 制定 利用 数据 的 计划 。 


举 几 个 例子 ， 如 果 咨 询 顾问 提出 挖掘 数据 资产 以 改善 业务 的 建议 ， 你 应 该 能 够 评估 该 建议 是 否 有 意义 。 如 果 竞 争 对 手 宣布 一 
个 新 的 数据 合作 伙伴 关系， 你 应 该 意识 到 这 可 能 使 你 处 于 战略 劣势 。 或 者 ， 假 设 你 在 风险 投资 公司 担任 职务 ， 你 的 第 一 个 项 目 是 
评估 一 个 广告 公司 的 投资 潜力 。 对 方 提出 一 个 诱 人 的 理由 ， 即 拥有 重要 价值 的 独特 数据 体系 。 而 在 了 解数 据 科学 的 基础 知识 后 ， 
你 应 该 能 够 设计 一 些 探测 问题 ， 以 判断 他 们 的 估价 是 否 可 信 。 


尽管 规模 不 大 ， 但 常见 的 数据 分 析 项 目 通常 涉及 所 有 业务 部 门 。 这 些 业务 部 门 的 员工 必须 与 数据 科学 团队 进行 合作 互动 。 如 
果 没 有 以 数据 分 析 思 维 原则 作为 根本 依据 ， 他 们 就 无 法 真正 理解 合作 业务 。 这 种 数据 分 析 理 解 上 的 缺乏 在 数据 科学 项 目 中 比 在 其 
他 技术 项 目 中 更 严重 ， 因 为 数据 科学 支持 优化 决策 。 若 商业 人 士 不 了 解数 据 科学 家 ， 公 司 将 存在 明显 的 短 板 ， 因 为 他 们 将 浪费 时 
间 和 精力 ， 甚 至 做 出 错误 的 决策 。 


20.7 ”具备 数据 分 析 技 能 的 管理 者 


麦肯锡 咨询 公司 估计 ， “未 来 能 够 利用 大 数据 的 管理 者 将 极度 缺乏 。 到 2018 年 ， 仪 美国 就 可 能 面临 缺乏 14 万 至 19 万 具有 深 
度 分 析 能 力 的 人 、150 万 能 够 利用 大 数据 分 析 做 有 效 决策 的 经 理 和 分 析 师 ”。 为 什么 对 具备 数据 分 析 技 能 的 管理 者 的 需求 是 具有 
深度 分 析 能 力 的 人 的 10 倍 ?” 当然， 数据 科学 家 不 难 管理 ， 但 他 仍 需要 10 个 经 理 ! 这 是 因为 一 个 企业 可 以 通过 数据 科学 团队 在 多 
领域 做 出 更 好 的 决策 来 获得 影响 力 。 然 而 ， 正 如 麦肯锡 所 指出 的 ， 这 些 领 域 的 管理 者 只 有 了 解数 据 科 学 的 基本 原理 ， 才 能 有 效 地 


获得 杠杆 效率 。 


20.8 数据 挖掘 与 数据 科学 


数据 挖掘 (Data Mining) 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 机 的 数据 中 ， 提 取 隐 含 在 其 中 的 、 事 先 未 知 的 、 
但 又 潜在 有 用 的 信息 和 知识 。 数 据 挖掘 中 的 主要 应 用 功能 可 以 分 为 三 大 类 六 分 项 : 分 类 (Classification) 和 聚合 (Clustering) 
属于 分 类 区 隔 类 ; 回归 分 析 (Regression) 和 时 间 序 列 (Time-series) 属于 推算 预测 类 ; 关联 分 析 (Association) 和 序列 分 析 
(Sequence) 则 属于 序列 规则 类 。 一 般 而 言 ， 数 据 挖 掘 主要 面向 的 是 某 个 目标 性 比较 明确 的 业务 或 项 目 ， 其 中 所 涉及 的 数据 规 
模 、 数 据 种 类 、 数 据 时 效 性 的 要 求 并 非特 别 强 。 


但 随 着 商业 数据 化 的 发 展 ， 传 统 商业 智能 所 面临 的 挑战 越 来 越 大 ， 爆 炸 般 激增 的 数据 量 被 公司 IT 系统 收集 ， 大 量 的 数据 需要 
在 更 短 的 时 间 内 被 处 理 完毕 。 此 时 ， 更 加 智能 与 商业 化 的 数据 科学 便 出 现 了 。 


数据 科学 包括 数学 统计 、 计 算 机 科学 以 及 领域 知识 ， 以 从 数据 中 提取 价值 为 目的 ， 如 图 20-2 所 示 。 数 据 科 学 可 以 看 作 是 对 
数据 的 商业 加 工 ， 其 不 仅仅 可 以 将 数据 转化 为 信息 ， 还 可 以 转化 为 产品 (个 性 化 推荐 、 实 时 竞价 、 精 准 营销 ) 。 





图 20-2 ”数据 科学 所 涉及 的 学 科 领 域 


数据 科学 作为 一 门 复合 型 科学 ， 涉 及 数学 统计 技术 、 计 算 机 技术 以 及 领域 专业 知识 三 个 方面 。 相 对 于 目前 市 场 上 使 用 多 年 的 
传统 BI 工 具 ， 数 据 科学 在 这 三 方面 都 具有 更 强 的 技术 优势 。 在 数学 统计 方面 ， 除 了 包含 常规 的 数据 挖掘 算法 〈 例 如 分 类 、 聚 类 、 
回归 等 ) 以 外 ， 还 需要 扩展 更 强大 的 机 器 学 习 算法 ， 例 如 深度 学 习 。 在 计算 机 技术 方面 ， 相 较 于 传统 的 单机 垂直 扩展 计算 能 
数据 科学 需要 更 加 强调 计算 能 力 的 横向 扩展 ， 通 过 分 布 式 计算 、 分 布 式 内 人 存 技术 支持 对 海量 数据 的 挖掘 、 建 模 。 在 领域 专业 知识 
方面 ， 相 较 于 传统 BI 工 具 基于 数据 仓库 结构 化 数据 的 分 析 技 术 ， 数 据 科 学 需要 通过 引入 自然 语言 处 理 技术 、 本 体 技术 、 信 号 图 像 
处 理 技术 来 支持 对 半 结 构 化 以 及 非 结 构 化 的 文本 、 音 频 、 视 频数 据 进 行 处 理 ， 实 现 多 源 数据 的 统一 集成 ， 从 而 能 够 大 大 提高 数据 
挖掘 的 精准 性 。 


在 实现 数据 科学 的 过 程 中 ， 往 往 需要 注意 以 下 四 点 : 


(1) 从 数据 中 提取 有 用 的 知识 以 解决 业务 问题 可 以 通过 遵循 合理 明确 定义 的 过 程 来 系统 地 实现 。 将 这 种 过 程 编纂 成 典 作 为 
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20.9 ”化 学 反应 不 只 限于 试管 : 数据 科学 与 数据 科学 家 的 工作 


在 继续 之 前 ， 我 们 应 该 简要 回顾 一 下 数据 科学 在 工程 方面 的 应 用 价值 。 本 书 在 讨论 数据 科学 的 过 程 中 ， 不 仅 涉 及 数据 分 析 技 
能 和 技术 的 理解 ， 而 且 还 提 及 流行 的 数据 分 析 工 具 。 数 据 科 学 家 (和 职位 广告 ) 的 定义 不 仅 包括 专业 领域 ， 而 且 还 有 特定 的 编程 
语言 和 工具 。 数 据 挖掘 技术 (例如 随机 森林 、 支 持 向 量 机 ) ， 特 定 应 用 领域 (推荐 系统 、 广 告 布局 优化 ) 以 及 处 理 大 数据 
(Hadoop、MongoDB) 的 流行 软件 工具 放 在 一 起 的 招聘 广告 非常 常见 。 在 处 理 大 型 数据 集 时 ， 科 学 和 技术 之 间 通 常 没有 什么 


数据 科学 是 一 个 年 轻 的 领域 ， 近 来 受到 特别 的 关注 ， 一 些 基 本 概念 刚刚 开始 出 现 。 数 据 科学 的 状态 类 似 19 世 纪 中 叶 的 化 
学 ， 随 着 理论 和 概念 的 制定 ， 同 时 也 需要 大 量 的 实验 。 每 个 优秀 的 化 学 家 都 必须 是 一 个 合格 的 实验 室 技术 员 。 同 样 ， 很 难 想象 一 
个 数据 科学 家 不 熟悉 某 种 软件 工具 。 


本 书 专注 于 科学 ， 而 不 是 技术 。 我 们 的 重点 是 数据 科学 的 基本 。 在 未 来 的 10 年 里 ， 主 要 技术 可 能 发 生 改 变 或 发 展 到 足以 使 


这 里 的 讨论 过 时 ， 但 基本 概念 可 能 几乎 不 会 改变 。 


20.10 总结 


本 章 讨论 从 大 量 数据 中 提取 有 用 的 信息 和 知识 并 以 此 改进 业务 决策 的 方法 。 由 于 几乎 每 个 行业 部 门 和 业务 部 门 都 会 收集 大 量 
的 数据 ， 因 此 提供 了 数据 挖掘 的 机 会 。 用 于 数据 挖掘 的 许多 技术 实质 上 仅 是 数据 科学 基本 观念 的 一 小 部 分 。 包 括 数据 挖掘 在 内 的 
大 部 分 业务 分 析 的 概念 都 是 通用 的 。 





今天 面向 数据 的 商业 环境 的 成 功 ， 促 使 我 们 思考 这 些 基本 观念 如 何 适用 于 特定 的 业务 问题 一 一 即 以 数据 分 析 的 方式 来 思 
考 。 例 如 ， 在 本 章 中 ， 我 们 讨论 了 数据 应 该 被 认为 是 一 种 商业 资产 ， 于 是 需要 考虑 是 否 应 该 投资 数据 。 因 此 ， 对 这 些 基本 观念 的 
理解 不 仅 对 数据 科学 家 本 身 很 重要 ， 对 于 任何 与 数据 科学 家 合作 、 雇 用 数据 科学 家 、 投 资 数据 或 指导 应 用 分 析 的 人 都 很 重要 。 
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21.1 全 面 解读 
以 数据 为 导向 的 决策 已 经 获得 了 越 来 越 多 的 认可 。 商 务 智 能 (BI) 以 及 业务 分 析 已 经 在 商业 领域 运用 多 年 ， 企 业已 经 逐渐 认 
识 到 了 小 规模 数据 集 和 线 下 分 析 处 理 带 来 的 价值 。 但 是 ， 业 界 开始 认识 到 大 数据 分 析 ， 尤 其 是 实时 数据 处 理 所 能 带 来 的 价值 。 


大 数据 潜在 的 巨大 价值 激发 了 各 类 型 企业 对 于 大 数据 的 热情 ， 从 而 投入 越 来 越 多 的 资源 挖掘 结构 化 、 半 结构 化 、 非 结构 化 大 
数据 所 能 带 来 的 商业 价值 。 尽 管 根据 大 数据 做 出 的 决策 非常 实用 ， 但 其 利用 现状 与 能 实现 的 潜在 价值 之 间 存 在 着 显著 的 差距 。 


那些 在 勇于 在 大 数据 分 析 领 域 尝鲜 的 企业 展现 了 这 一 差距 ， 例 如 : 2009 年 ， 仅 谷歌 一 家 企业 ， 就 因 有 效 使 用 大 数据 处 理 分 
析 能 力 ， 为 美国 经 济 贡献 了 540 亿 美元 的 产值 。 


仅 这 一 个 理由 就 足以 让 大 多 数 企业 开始 思考 大 数据 分 析 如 何 影响 企业 经 营 ， 而 积极 将 大 数据 应 用 在 企业 经 营 中 是 一 件 赶 早 不 
赶 晚 的 优先 事项 。 





在 探讨 大 数据 创造 价值 的 过 程 中 ， 数 据 异 质 性 、 规 模 、 时 效 性 、 复 杂 性 和 隐私 问题 等 因素 可 能 会 阻碍 到 这 一 过 程 的 进展 。 最 
主要 的 问题 出 现在 数据 获取 的 节点 上 ， 当 数据 海啸 来 临时 ， 需 要 人 们 进行 实时 的 决策 ， 确 定 哪些 数据 需要 保留 ， 哪 些 数据 需要 抛 
弃 ， 以 及 应 如 何 更 加 可 靠 地 保存 那些 我 们 觉得 具备 高 价值 的 海量 数据 。 


另 一 大 问题 在 于 目前 的 数据 无 法 以 结构 化 的 形式 进行 储存 ， 例 如: 推 特 及 博客 都 是 以 弱 结构 化 存储 的 文本 ， 尽 管 图 片 和 视频 
能 够 以 结构 化 的 形式 存储 和 展示 ， 但 其 中 的 语意 内 容 和 搜索 却 不 能 做 到 结构 化 。 将 这 些 非 结构 化 数据 转换 为 可 分 析 的 格式 是 一 项 
巨大 的 挑战 。 


尽管 如 此 ， 当 数据 可 以 同 其 他 信息 进行 天 联 时 ， 数 据 的 价值 将 爆炸 式 地 展现 出 来 。 现 今 ， 绝 大 部 分 数据 是 直接 以 数字 化 的 形 
式 创建 出 来 的 ， 因 此 为 企业 带 来 了 潜在 的 关联 历史 数据 的 机 会 与 挑战 。 


数据 分 析 、 组 织 、 检 索 以 及 建 模 构成 了 其 他 基本 挑战 因素 ， 而 底层 数据 算法 的 缺失 以 及 待 分 析 数 据 的 复杂 度 已 经 成 为 了 数据 
分 析 的 瓶颈 。 最 后 ， 非 技术 领域 专家 的 结果 展示 与 解读 也 是 提取 可 行 知识 的 关键 要 素 。 
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尽管 如 此 ， 当 数据 可 以 同 其 他 信息 进行 天 联 时 ， 数 据 的 价值 将 爆炸 式 地 展现 出 来 。 现 今 ， 绝 大 部 分 数据 是 直接 以 数字 化 的 形 
式 创建 出 来 的 ， 因 此 为 企业 带 来 了 潜在 的 关联 历史 数据 的 机 会 与 挑战 。 
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分 析 的 瓶颈 。 最 后 ， 非 技术 领域 专家 的 结果 展示 与 解读 也 是 提取 可 行 知识 的 关键 要 素 。 


21.2 ” 通 往 大 数据 之 路 


在 过 去 的 几 十 年 中 ， 主 数据 管理 准则 ， 包 括 数 据 的 物理 及 逻辑 独立 性 、 声 明 式 查询 、 成 本 优化 等 创造 了 一 个 数 十 亿美 元 的 产 
业 ， 并 且 为 数据 获取 带 来 了 附加 价值 。 这 几 项 技术 创新 引导 了 商务 智能 平台 (Bl) 的 出 现 ， 使 之 成 为 数据 价值 提取 以 及 企业 决策 
的 主要 途径 及 来 源 之 一 。 


Bl 应 用 和 平台 已 经 创造 了 进入 大 数据 分 析 时 代 的 理想 环境 。 现 而 今 ， 大 部 分 的 基础 理论 概念 并 未 发 生变 化 ， 只 是 数据 的 来 
源 、 数 量 以 及 分 析 方 法 发 生 了 变化 。 


这 为 大 数据 领域 的 成 本 投入 指明 了 方向 ， 同 时 上 述 相关 技术 要 素 应 引起 大 多 数 企 业 的 重点 关注 。 这 些 投入 将 极 大 地 推动 这 些 
分 析 平 台 的 进一步 演变 ， 并 努力 令 其 与 大 数据 分 析 解 决 方案 进行 整合 ， 进 而 突破 传统 分 析 的 局 限 。 换 而 言 之 ， 在 大 数据 领域 的 投 


入 必 将 引领 新 一 轮 的 基础 技术 革新 ， 从 而 创造 出 新 一 代 的 大 数据 管理 分 析 平 台 、 产 品 和 系统 。 


大 数据 时 代 已 经 来 临 ， 使 用 大 数据 来 解决 业务 问题 以 及 大 数据 研究 探索 ， 将 最 有 可 能 为 经 济 创 造 巨大 的 经 济 价 值 ， 使 大 数据 
分 析 成 为 大 型 组 织 的 常态 。 但 是 ， 通 往 成 功 的 道路 充满 荆棘 ， 这 要 求 数据 科学 家 从 基础 层面 重新 思索 大 数据 分 析 系 统 。 


对 大 数据 领域 的 投入 不 仅仅 会 引导 主流 科技 进步 ， 还 很 有 可 能 莫 定 下 一 代 科技 、 医 学 以 及 商务 友 展 的 基础 。 因 此 ， 各 企业 家 
都 需要 问 自己 这 样 一 个 问题 : 我 们 是 否 要 成 为 下 一 个 IT 领 域 大 变革 的 一 分 子 ? 


21.3 ”思索 大 数据 的 真实 一 面 


当今 ， 各 机 构 以 及 个 人 都 被 数据 洪流 冲击 着 。 应 用 程序 和 以 计算 机 为 基础 的 工具 正在 以 前 所 未 有 的 规模 收集 信息 。 不 利 的 一 
面 是 ， 数 据 必 须 被 管理 ， 这 是 一 个 昂贵 且 繁 琐 的 过 程 。 然 而 ， 至 少 目前 看 来 ， 该 管理 的 成 本 可 以 被 数据 所 提供 的 内 在 价值 所 抵 
消 。 


这 些 价值 是 数据 本 身 所 衍生 出 来 的 ， 以 往 所 有 的 决策 都 是 通过 猜测 或 者 构建 的 模型 推导 出 来 的 ， 现 而 今 数据 本 身 可 以 提供 决 
策 所 需 的 线索 。 大 数据 分 析 现 在 已 经 体现 在 现代 社会 的 各 个 领域 ,包括 : 移动 设备 服务 、 零 售 、 制 造 、 金 融 服务 、 社 会 科学 以 及 
物理 科学 等 。 


大 数据 分 析 现 在 已 经 在 某 些 细 分 市 场 取得 了 初步 的 成 功 。 举 个 例子 ， 大 数据 已 经 彻底 改变 了 科学 研究 ， 典 型 例子 是 斯 隆 数据 
航天 调查 显示 ， 大 数据 已 经 成 为 了 世界 各 地 天 文学 家 研究 的 主要 依据 。 


天 文学 家 们 已 经 握 弃 仅仅 通过 天 空 拍照 搜寻 目标 的 作业 方式 ， 而 是 将 所 有 天 空 图 片 集 成 为 一 个 大 数据 库 ， 从 中 完成 搜索 太空 
物体 及 天 文 现象 等 科研 任务 。 


这 种 转变 也 同样 发 生 在 生物 领域 。 现 在 生物 科学 家 们 已 经 形成 一 个 既定 的 流程 ， 即 将 科学 数据 整合 进 一 个 公共 数据 仓库 ， 并 
将 这 个 公共 数据 库 开 放 给 其 他 科学 家 使 用 。 事 实 上 ， 生 物 科 学 领域 已 经 形成 了 一 整套 新 的 生物 信息 学 科 ， 主 要 是 致力 于 生物 科学 
数据 的 维护 和 分 析 。 随 着 技术 的 进步 ， 特 别 是 随 着 下 一 代 测 序 技术 的 到 来 ， 可 用 的 实验 数据 集 的 大 小 和 数量 呈现 指数 级 增长 。 


大 数据 有 可 能 带 来 革命 性 变革 的 领域 不 仅仅 是 科学 研究 领域 ， 数 据 分 析 过 程 也 开始 改变 教 


育 行 业 。 最 近 对 纽约 市 35 所 公立 
学 校 采取 不 同 的 教学 方法 并 级 逆行 量化 对 比 发 现 ， 前 五 大 衡量 要 素 之 一 就 是 使 用 数据 来 指导 教学 。 


这 个 例子 仅仅 揭示 了 大 数据 使 用 的 冰山 一 角 ， 数 据 分 析 技 术 的 改进 和 发 展 ， 将 产生 出 更 多 的 价值 。 大 数据 的 使 用 开局 了 一 个 
全 新 的 教育 世界 ， 获 得 授权 的 人 可 以 进入 这 个 大 型 数据 库 ， 检 索 到 每 个 学 生 学 习 效 果 的 具体 评测 结果 ， 从 而 利用 这 些 数据 设计 更 
加 合理 有 效 的 教育 方式 ， 涉 及 的 领域 从 基础 教育 学 科 (例如 阅读 、 写 作 、 数 学 等 ) 一 直到 高 等 的 大 学 课程 。 


最 后 一 个 利用 大 数据 的 典型 案例 是 医疗 保健 行业 ， 大 数据 贯穿 了 医保 开销 、 治 疗 措施 、 药 品 测试 等 多 个 环节 。 通 过 对 保健 预 
防 、 个 性 化 医疗 和 广泛 的 (家庭 ) 健康 指标 等 多 方面 监测 数据 的 积累 与 分 析 ， 最 终 实现 降低 医疗 成 本 和 提高 医疗 服务 质量 的 目 
的 。 


还 有 更 多 的 例子 可 以 说 明 ， 大 数据 所 创造 的 价值 远 超过 人 们 的 预期 。 天 键 点 在 于 所 进行 的 分 析 和 所 追求 的 目标 。 上 述 案例 仅 
仅 揭 示 了 大 数据 应 用 价值 的 表面 现象 。 我 们 想 要 表达 的 关键 点 是 ， 希 望 通过 上 述 案例 令 读者 理解 大 数据 分 析 的 内 在 价值 ， 并 且 引 
导读 者 探索 大 数据 可 以 运用 的 其 他 场景 。 


21.4 大 数据 实践 


大 数据 分 析 包 含 了 多 个 阶段 ， 每 个 阶段 都 存在 很 多 挑战 。 这 些 阶段 包括 数据 获取 、 数 据 提取 、 数 据 整 合 、 建 模 以 及 解读 。 但 
是 ， 大 部 分 人 仅仅 关注 建 模 (分 析 ) 阶段 。 尽 管 这 个 阶段 非常 关键 ， 但 是 如 果 缺 少 前 端的 数据 分 析 处 理 阶 段 ， 数 据 建 模 作 用 将 极 
为 有 限 ， 甚 至 可 能 导致 数据 分 析出 现 问题 ， 例 如 : 错误 的 结果 或 者 无 法 解读 的 结果 等 。 好 的 数据 分 析 成 果 的 前 提 是 高 质量 的 源 数 
据 。 问 题 的 根源 在 于 ， 人 们 对 于 多 维度 数据 集 的 分 析 含义 以 及 多 项 分 析 并 行 开 展 时 的 复杂 情况 缺乏 清晰 的 理解 与 认识 。 


很 多 挑战 体现 在 数据 建 模 之 前 或 之 后 环节 。 例 如 ， 大 数据 必须 管理 信息 的 上 下 文 含 义 ， 其 中 可 能 包括 虚假 的 信息 ， 并 且 是 非 
结构 化 的 ; 这 并 不 能 通过 算法 来 解决 。 这 就 意味 着 ， 人 们 需要 在 数据 源 处 理 阶段 就 解决 这 些 不 确定 性 因素 和 错误 。 


也 许 问题 可 以 归 因 于 无 知 ， 或 者 至 少 缺乏 对 数据 定义 的 思考 。 这 就 意味 着 在 数据 获取 阶段 ， 就 必须 提前 对 数据 内 容 及 应 用 场 
景 进 行规 划 ， 考 虑 好 需要 什么 类 型 的 数据 以 及 如 何 获取 其 中 有 用 的 信息 。 


完成 这 些 任 务 需要 更 加 智能 的 系统 ， 系 统 可 以 对 特定 查询 提供 必要 的 条 件 支 持 ， 或 者 赋予 用 户 使 用 自然 语言 工具 (而 不 是 复 
杂 的 数学 算法 ) 来 查询 数据 。 关 键 点 在 于 人 工 智能 (Al) 的 水 平 以 及 可 依赖 的 程度 。 目 前 ，IBM 的 Watson 系统 是 利用 人 工 智能 
(Al) 支持 大 数据 分 析 的 前 沿 平台 ， 然 而 ， 由 于 庞大 的 数据 规模 和 数据 分 析 系 统 的 高 复杂 性 ， 大 多 数 分 析 人 员 尚 未 完全 认可 该 系 
统 的 可 用 性 。 


这 就 意味 着 其 他 更 加 先进 可 靠 的 数据 工具 / 系统 需要 被 研发 以 支持 用 户 及 数据 分 析 员 的 分 析 工 作 ， 这 些 数据 工具 / 系统 必须 
具备 经 济 性 及 易 操 作 性 。 总 之 ， 为 大 部 分 用 户 提供 行 之 有 效 的 大 数据 分 析 工 具 成 为 了 大 数据 领域 的 另 一 瓶颈 。 


21.5 ”深度 解读 大 数据 处 理 流程 


大 数据 并 非 赁 空 而 来 。 基 本 上 ， 所 有 数据 都 是 由 数据 源 产 生 并 记录 的 。 数 据 收集 通过 感知 / 观察 我 们 周围 的 世界 进行 ， 从 记 
录 一 个 医院 病人 的 心率 ， 到 空气 样本 收集 ， 到 网 页 查询 记录 ， 再 到 科学 实验 ， 很 容易 产生 PB 级 的 数据 。 


然而 ， 数 据 收集 是 一 个 枯燥 的 过 程 ， 将 数据 过 滤 并 压缩 更 是 一 个 巨大 的 挑战 : 过 滤 代 表 着 不 舍弃 掉 有 用 信息 。 举 个 例子 ， 假 
设 某 个 数据 传感器 收集 到 的 一 个 数据 与 其 他 来 源 收集 到 的 数据 存在 很 大 不 同 。 那 么 问题 来 了 ， 这 究竟 是 传感器 发 生 了 错误 ， 还 是 
说 真实 数据 就 是 如 此 ， 不 应 被 气 弃 ? 


将 数据 筛选 过 程 进一步 复杂 化 ， 则 需要 了 解 传感器 是 如 何 收集 数据 的 。 是 基于 时 间 段 、 交 易 ? 又 或 是 其 他 变量 ? 这 些 传感器 
是 否 会 受到 环境 或 者 其 他 活动 的 影响 ? 传感器 是 否 与 时 间或 空间 等 相关 联 (比如 交通 动态 或 者 降雨 ) ? 


在 进行 数据 筛选 前 必须 搞 清楚 这 些 影响 因素 。 这 可 能 需要 新 的 技术 和 方法 对 原始 数据 进行 智能 处 理 ， 确 保 获 取 的 数据 是 可 控 
的 、 没 有 丢失 的 。 另 一 个 复杂 因素 是 数据 流程 的 实时 性 ， 数 据 是 动态 且 流 动 的 ， 为 了 节约 存储 空间 ， 有 些 收集 设备 并 不 具备 存储 
功能 ， 为 了 收集 新 的 数据 ， 旧 数据 将 被 蔡 代 。 


另 一 个 挑战 在 于 自动 规范 生成 数据 元 ， 并 描述 记录 了 哪些 数据 ， 以 及 它们 是 如 何 被 记录 、 测 量 的 。 例 如 ， 在 一 项 科学 实验 
中 ,需要 考虑 在 某 一 实验 条 件 下 ， 如 何 准确 解读 实验 结果 ， 并 且 需 要 与 实验 观察 结论 一 同 记录 下 来 。 


一 旦 正确 地 部 署 了 数据 自动 获取 系统 ， 人 工 处 理 流程 将 大 大 减少 ， 并 降低 记录 元 数据 的 人 为 负担 。 但 是 ， 数 据 收集 者 还 是 需 
要 亲自 关注 / 理解 数据 的 来 源 及 收集 过 程 。 在 数据 分 析 的 整个 过 程 中 ,记录 数据 创建 伊始 的 相关 信息 变 得 越 来 越 重要 。 精 准 的 数 
据 源 可 以 避免 由 于 数据 处 理 错误 导致 的 无 效 分 析 结 果 ， 并 可 以 使 得 后 续 数据 处 理 步 骤 变 得 更 加 迅速 顺畅 。 实 践 证 明 ， 在 数据 分 析 


过 程 中 那些 带 有 数据 来 源 信息 的 数据 元 是 更 加 精确 可 依赖 的 。 


下 一 个 步骤 是 对 数据 的 提取 及 清洗 。 收 集 到 的 数据 由 于 数据 格式 问题 通常 不 能 直接 用 于 分 析 。 例 如 ， 在 进行 健康 医疗 数据 收 
集 的 过 程 中 ， 由 于 数据 来 源 于 不 同 的 医疗 机 构 或 稚 人 医生 ， 且 健康 医疗 数据 可 能 包括 结构 化 的 医疗 传感器 数据 、 诊 断 数据 (可 能 
还 包含 一 些 异常 数据 ) 、 扫 描 设备 的 图 片 信息 等 ， 从 而 导致 这 些 数据 格式 各 异 ， 难 以 有 效 分 析 。 这 就 要 求 在 数据 抽取 及 清洗 阶段 
将 这 些 数据 中 有 用 的 信息 字段 抽取 出 来 ， 并 将 它们 转换 为 可 分 析 的 结构 化 数据 。 


完成 上 述 步骤 是 一 个 充满 挑战 的 持续 性 过 程 ， 尤 其 是 当 处 理 那 些 图 片 数 据 、 视 频数 据 时 。 这 类 抽取 过 程 高 度 依 赖 于 应 用 工 
具 ， 比 如 从 核磁 共振 MRI 中 提取 信息 就 与 从 监控 录像 中 获取 图 片 信息 完全 不 同 。 监 控 报 像 机 、GPS 移 动 电话 、 摄 像 机 以 及 其 他 便 
携 式 移动 设备 的 普及 ， 意 味 着 人 们 还 可 以 从 中 提取 丰富 和 高 保 真 的 位 置 和 轨迹 ( 即 空间 移动 ) 数据 。 


另 一 个 争论 点 在 于 数据 的 真实 性 ， 在 绝 大 多 数 情 况 下 数据 应 该 是 精准 目 真实 的 。 但 在 一 些 情况 下 ， 人 们 获取 的 数据 有 可 能 
含 了 虚假 的 信息 。 例 如 ， 病 人 有 可 能 隐瞒 一 些 病情 ， 或 者 借贷 人 在 提交 贷款 申请 时 隐瞒 收入 或 一 些 高 额 支 出 。 这 些 都 只 是 无 数 种 
误 报 数据 信息 方法 中 的 几 个 。 因 此 在 数据 清洗 阶段 ， 建 议 引入 获得 广泛 认可 的 数据 校 验方 法 ， 并 尽 可 能 引入 大 家 认 知 的 纠 错 模 
型 ， 这 是 目前 大 部 分 数据 平台 所 欠缺 的 。 


在 整个 数据 处 理 过 程 中 应 该 关注 数据 的 集成 、 聚 合 以 及 展现 ， 这 些 都 是 面 对 异 质 性 数据 洪流 时 的 标准 处 理 步 骤 。 其 中 的 难点 
是 将 数据 记录 下 来 并 且 将 其 放 入 相应 的 数据 集 。 


相 较 于 简单 的 数据 定位 、 识 别 、 理 解 与 引用 ， 数 据 分 析 更 具有 挑战 性 。 大 规模 的 数据 分 析 全 部 都 是 自动 完成 的 ， 这 就 要 求 机 
器 可 以 识别 并 处 理 不 同 的 数据 结构 以 及 不 同 结 构 下 的 语义 。 要 想 实 现 上 述 功能 需要 投入 大 量 的 时 间 及 人 力 ， 并 需要 系统 具备 强大 


的 纠 错 能 力 。 


甚至 仪 仪 是 要 完成 对 单一 数据 集 的 分 析 ， 在 数据 处 理 准 备 阶 段 也 需 面临 同样 的 挑战 。 在 数据 库 设计 时 需要 考虑 更 加 复杂 的 问 
题 ， 即 如 何 使 用 更 加 灵活 的 方式 存储 信息 。 特 别 是 与 其 他 方式 相对 比 ， 数 据 库 设计 对 于 数据 分 析 更 有 帮助 。 典 型 案例 是 生物 信息 
学 数据 库 结构 的 变化 ， 其 中 基本 相似 的 实体 (例如 基因 ) 的 信息 存储 位 置 虽然 不 同 ， 但 可 以 用 相同 的 数据 元 素 表 示 。 


上 述 示例 清楚 地 表明 数据 库 设计 是 一 项 专业 工作 ， 应 该 由 专业 人 员 认 真 执行 。 在 进行 数据 库 设计 过 程 中 ， 专 业 人 员 例如 数据 
分 析 专 家 ， 应 该 使 用 工具 协助 他 们 进行 设计 ， 在 缺乏 智能 型 数据 库 前 提 下 ， 更 要 注重 研发 更 加 有 效 的 技术 工具 。 


下 一 个 步骤 是 数据 查询 与 数据 建 模 。 同 传统 的 数据 统计 分 析 相 比 ， 大 数据 分 析 的 基础 方法 是 数据 查询 与 数据 挖掘 。 与 使 用 传 
统 数据 分 析 的 小 数据 相 比 ， 大 数据 在 信息 来 源 上 表现 出 明显 的 差异 性 : 繁杂 性 、 动 态 性 、 一 致 性 、 自 相关 与 不 可 信 。 


但 相 比 而 言 ， 繁 杂 的 大 数据 可 能 比 微小 的 数据 样本 更 有 价值 ， 因 为 统计 分 析 往 往 通过 对 规律 性 数据 集 的 分 析 来 获得 一 般 性 的 
统计 结论 ， 而 大 数据 分 析 往 往 结合 了 相关 性 分 析 ， 从 而 揭示 了 更 可 靠 的 隐 合 信息 和 知识 。 此 外 ， 相 互 关联 的 大 数据 构成 的 异 构 信 
息 网 络 ， 可 以 通过 探索 以 弥补 丢失 的 数据 ， 进 行 交 叉 验 证 识别 冲突 信息 ， 并 检验 数据 的 可 依赖 性 。 对 相互 关联 的 大 数据 源 进 行 数 
据 集群 归 类 ， 可 以 揭示 数据 间 的 关系 与 模型 。 


因此 ， 要 进行 大 数据 挖掘， 从 数据 端 而 言 就 需要 集成 的 、 已 清洗 的 、 可 信赖 的 、 有 效 的 可 访问 数据 ， 从 技术 方法 层面 来 看 则 
需要 拥有 声明 式 查 询 、 挖 掘 接口 的 可 扩展 的 挖掘 算法 的 支撑 。 这 全 都 依赖 于 大 数据 计算 环境 可 以 处 理 数 据 量 的 能 力 。 进 一 步 而 
言 ， 数 据 挖掘 还 被 用 来 提高 数据 质量 以 及 可 信和 度 ， 揭 示 数 据 隐 含 的 意义 ， 并 提供 智能 查询 功能 。 


在 医疗 保健 领域 ， 引 入 错误 的 数据 可 能 会 导致 致命 的 错误 。 如 前 所 述 ， 现 实 世界 的 医疗 记录 存在 错误 并 不 罕见 。 而 使 情况 进 
一 步 复杂 的 是 ， 医 疗 记录 是 多 源 且 异 质 的 ， 并 且 这 些 医疗 数据 通常 分 布 在 不 同 的 系统 当中 。 结 果 是 构成 了 一 个 复杂 的 分 析 环 境 ， 
且 很 难 用 一 个 统一 的 标准 来 定义 其 各 自 的 元 素 。 


只 有 将 大 数据 分 析 应 用 于 这 些 具 有 挑战 性 的 场景 ， 其 价值 才能 够 得 以 凸显 。 从 大 数据 分 析 中 获取 的 信息 可 以 用 来 纠正 错误 以 


及 消除 歧义 。 典 型 的 纠正 案例 是 当 医 生 给 病人 诊断 为 “DVT” 时 ， 可 以 代表 为 “深度 静脉 血栓 ”以 及 “起 室 炎 ” 两 种 完全 不 相关 
的 疾病 。 此 时 需要 通过 临床 症状 与 相关 药物 的 数据 帮助 形成 相应 的 认 知 ， 从 而 进行 确诊 。 


自 此 ， 我 们 可 以 清楚 地 看 到 大 数据 是 下 一 代 交 互 式 数 据 分 析 的 基础 ， 可 以 通过 自动 分 析 得 到 实时 结论 。 这 意味 着 未 来 机 器 智 
能 将 被 运用 到 大 数据 分 析 当 中 ， 并 成 为 大 数据 查询 的 关键 能 力 ， 它 们 可 被 应 用 在 网 站 推荐 、 热 门 列表 或 建议 推送 、 数 据 集 价值 实 
时 分 析 (以 决定 是 否 存 储 或 丢弃 它 ) 等 方面 。 


要 实现 上 述 目标 则 需要 应 用 复杂 查询 处 理 技术 ， 能 够 支持 百 万 兆 字 节 实 时 交互 响应 ， 目 前 来 看 ， 该 技术 的 研发 是 一 项 艰巨 的 


些 令 人 头疼 的 技术 挑战 都 会 在 未 来 得 到 解决 。 


当下 数据 库 之 间 是 相互 割裂 的 ， 且 只 能 通过 SQL 查询 ， 这 个 问题 需要 通过 一 个 能 提供 各 种 形式 的 非 SQL 处 理 分 析 包 来 解决 ， 
如 数据 挖掘 和 统计 分 析 。 今 天 数据 分 析 人 员 需 要 通过 一 个 繁琐 的 数据 库 导 出 流程 ， 执 行 非 SQL 处 理 后 再 生成 返回 所 需 数据 。 目 前 
这 是 基于 SQL 的 第 一 代 OLAP 数 据 库 的 限制 ， 是 实现 自动 交互 查询 功能 的 一 个 主要 障碍 。 这 就 需要 声明 性 查询 语言 和 大 数据 分 析 
软件 包 功 能 之 间 的 紧密 看 合 ， 从 而 提高 数据 分 析 的 表现 力 和 性 能 。 


数据 解读 是 大 数据 分 析 过 程 中 的 另 一 个 重要 环节 ， 因 为 ， 基 于 数据 所 展现 的 信息 ， 可 以 为 商业 决策 提供 支持 。 如 果 对 于 数据 
的 解读 能 力 有 限 ， 可 能 导致 使 用 者 无 法 理解 数据 分 析 的 结论 ， 从 而 无 法 提供 商业 决策 所 需 的 信息 支持 。 数 据 解读 是 不 能 赁 空 生成 
的 ， 决 策 者 需要 依据 数据 分 析 结 论 的 解读 进行 商业 判断 。 在 多 数 情 景 下 ， 数 据 解读 是 一 个 需要 经 过 假设 检验 并 进行 重新 分 析 的 过 


程 。 


数据 解读 过 程 中 的 一 个 天 键 因素 在 于 理解 潜在 的 错误 源 ， 从 流程 错误 ， 到 不 恰当 的 分 析 假 设 ， 再 到 基于 错误 数据 得 出 的 伪 结 
论 ， 这 些 都 要 求 从 逻辑 上 避免 完全 依赖 自动 化 的 判断 ， 仍 需要 人 的 参与 。 恰 当 的 数据 解读 需要 用 户 理解 和 验证 系统 产生 的 结论 。 
然而 ， 数 据 分 析 平 台 生 成 的 结论 应 该 易于 理解 并 解读 ， 但 由 于 大 数据 本 身 固 有 的 复杂 性 ， 仍 是 现在 大 数据 分 析 面 临 的 挑战 之 一 。 


在 多 数 案 例 中 ， 数 据 背 后 的 假设 有 可 能 推翻 整体 分 析 结 果 ， 数 据 分 析 人 员 必 须 提前 意识 到 这 种 可 能 性 。 大 数据 分 析 包含 了 多 
个 步骤 ， 假 设 分 析 可 以 从 任意 节点 切入 ， 关 键 的 是 要 做 好 假设 分 析 的 文档 记录 以 及 过 程 分 析 ， 这 使 得 数据 解读 环节 变 得 尤为 重 
要 。 将 假设 结论 引入 到 改进 数据 分 析 算 法 ， 最 终 会 得 到 改进 结果 ， 并 形成 一 种 自动 矫正 流程 。 


大 数据 分 析 的 目的 不 仅仅 是 提供 一 个 结果 ， 相 反 ， 大 数据 分 析 需 要 阐述 并 提供 补充 信息 用 以 揭示 每 个 结论 的 来 源 是 什么 以 及 
结论 又 是 如 何 推导 出 来 的 。 这 些 补充 说 明 信 息 被 称 为 数据 来 源 (provenance of the data) 。 通 过 研究 数据 获取 、 存 储 以 及 出 
处 查询 的 最 佳 实践 方法 ， 并 进行 技术 整合 完成 丰富 的 数据 积累 ， 我 们 就 可 以 为 用 户 提供 分 析 结 果 解 读 ， 同 时 具备 利用 不 同 假设 、 
参数 或 数据 集 的 重复 分 析 能 力 的 基础 设施 平台 。 


21.6 ”大 数据 可 视 化 


对 于 用 户 来 讲 ， 系 统 应 该 提供 对 于 数据 分 析 结 论 的 解读 ， 因 此 具备 丰富 的 可 视 化 展现 功能 是 非常 重要 的 。 以 往 ， 商 业 智 能 系 
统 (BI) 可 以 为 其 用 户 提供 丰富 的 数据 表格 ,但 是 需要 用 户 自己 构建 数据 关系 的 可 视 化 图 表 。 但 是 ， 复 杂 的 大 数据 对 这 一 过 程 提 
出 了 更 高 的 要 求 ， 我 们 需要 用 到 图 形 / 图 表 来 展示 数据 集 分 析 的 结果 ， 令 数据 分 析 结 果 更 加 可 视 化 且 易 于 理解 。 


通常 将 分 析 结 果 以 图 形 呈 现 ， 可 以 使 多 数 用 户 更 容易 理解 分 析 结 论 的 含义 。 因 此 ， 现 今 的 数据 分 析 结 论 必须 通过 可 视 化 形式 
提供 给 用 户 ， 帮 助 他 们 解读 数据 分 析 结 论 的 含义 。 


这 些 可 视 化 视图 的 构建 应 该 基于 交互 式 数 据 源 ， 人 允许 用 户 点 击 并 重新 定义 所 呈现 的 元 素 ， 创 建 一 个 结构 性 环境 ， 使 理论 可 以 


被 直观 地 展现 出 来 ， 并 深入 揭示 其 中 的 潜藏 信息 。 理 想 情况 下 ， 界 面 应 允许 可 视 化 视图 可 以 根据 不 同 的 假设 情况 进行 调整 ， 或 按 


照 其 他 相关 信息 (例如 日 期 范围 、 地 理 位 置 或 统计 查询 ) 进行 过 滤 。 
同时 ， 可 视 化 视图 应 支持 用 户 仪 需 通 过 几 次 简单 的 点 击 ， 就 能 够 深入 地 了 解 每 个 数据 及 其 来 源 ， 而 这 正 是 理解 数据 的 天 键 特 


些 结果 ， 还 能 知道 他 们 为 什么 要 看 到 这 些 结果 。 
。 一 个 可 借鉴 的 方法 是 让 用 户 参 与 


ry 


征 。 用 户 不 仅 能 够 看 到 这 
， 原 始 数据 来 源 、 具 体 的 分 析 过 程 都 大 过 于 技术 化 ， 想 要 完全 掌握 并 不 容易 


对 于 用 户 而 言 
到 数据 分 析 的 过 程 中 ， 通 过 调整 具体 步骤 中 的 个 别 参数 及 阔 值 ， 使 其 观察 到 这 些 细微 的 调整 对 于 数据 结论 的 影响 。 通 过 这 些 手 
当 分 析 结 果 同 用 户 初始 预期 不 符 时 ， 人 允许 客户 对 过 程 进行 验证 分 析 。 要 实现 这 一 


段 ， 用 户 可 以 对 分 析 过 程 形成 一 个 直观 的 感 党 
目标 ， 就 要 求 数据 分 析 系 统 能 提供 给 用 户 深度 参与 的 功能 ， 令 其 可 以 进行 特定 的 数据 分 析 。 


21.7 大 数据 隐私 
大 数据 隐私 是 与 大 数据 应 用 价值 同样 重要 的 热点 议题 ， 例 如 对 于 电子 健康 记录 这 类 重点 监管 对 象 ， 法 律 明确 规定 了 什么 可 以 
大 数据 的 使 用 尤其 是 当 各 数据 源 形成 关联 之 


做 ， 什 么 不 能 做 ， 但 对 于 其 他 数据 ， 尤 其 是 在 美国 ， 监 管 就 没有 那么 严格 了 。 但 是 
后 带 来 的 隐私 问题 仍 引 起 了 广泛 的 争论 。 大 数据 的 隐私 管理 是 一 个 技术 性 与 社会 性 的 问题 ， 只 有 从 两 个 角度 共同 解决 ， 才 能 保证 


大 数据 的 未 来 。 
以 位 置信 息 共 享 服务 为 例 ， 该 信息 需要 收集 用 户 的 地 理 位 置 以 便服 务 商 提供 相应 的 线 上 / 线 下 服务 ， 这 就 引发 了 对 个 人 隐私 
暴 趣 的 担忧 。 尽 管 在 实际 应 用 过 程 中 获取 用 户 地 理 位 置信 息 时 会 隐 去 个 人 身份 特征 ， 但 这 仍 牵扯 到 对 个 人 隐私 的 讨论 。 


黑客 或 欺诈 者 可 以 通过 分 析 从 位 置 服务 器 获取 的 位 置信 息 推 断 用户 的 身份 。 举 个 例子 ， 通 过 几 个 固定 连接 点 (移动 基站 ) 获 
取 到 用 户 日 常 活动 轨迹 ， 经 过 一 段 时 间 的 数据 积累 ， 就 可 以 描绘 出 一 个 用 户 日 常 的 活动 轨迹 ， 从 而 定位 到 此 用 户 日 常 出 入 的 办 公 


场所 及 住所 ， 并 推断 用 户 的 身份 信息 。 
一 些 其 他 类 型 的 私人 信息 ， 如 健康 信息 (例如 ， 出 现在 癌症 治疗 中 心 ) 或 宗教 偏好 (〈 例 如， 经常 去 某 个 教堂 ) ， 也 可 以 通过 


日 积 月 累 地 对 用 户 的 运动 轨迹 及 生活 方式 的 持续 观察 推断 出 来 。 
现 如 今 想 要 隐藏 个 人 的 位 置信 息 比 隐藏 个 人 身份 信息 更 加 困难 ， 这 是 基于 位 置 与 用 户 进行 互动 的 必然 结果 ， 对 于 服务 供应 商 


， 获 取 用 户 的 地 理 位 置 是 必需 的 ， 身 份 信息 反而 不 那么 重要 。 
除 此 之 外 ， 数 据 隐私 问题 还 会 引申 出 更 多 的 具有 挑战 性 的 问题 ， 例 如 如 何平 衡 可 披露 个 人 信息 与 隐私 信息 之 间 的 边界 ， 并 保 


证 所 获取 数据 的 可 用 性 。 目 前 的 差分 披露 方法 给 大 数据 分 析 英 定 了 一 个 正确 的 方向 ,但 是 在 实践 中 这 种 方法 容易 造成 数据 有 效 性 


导 
了 


被 破坏 ， 导 致 数据 不 可 用 。 

现实 世界 的 数据 本 质 上 不 是 静态 的 ， 它 们 的 数量 级 在 不 断 增长 ， 并 随 着 时 间 不 断 发 生变 化 ， 使 得 主流 技术 几乎 无 用 ， 因 为 有 
用 的 内 容 未 能 以 任何 可 测量 的 形式 展现 以 用 于 数据 的 分 析 。 这 需要 重新 思考 如 何 为 大 数据 界定 信息 共享 的 安全 性 。 许 多 在 线 服 务 
需要 我 们 共享 私人 信息 (比如 Facebook) ， 但 是 除了 访问 控制 之 外 ， 我 们 不 知道 数据 共享 意味 着 什么 ， 共 享 的 数据 是 如 何 关联 


的 ， 以 及 应 该 共享 什么 粒度 的 个 人 信息 。 
数据 隐私 是 一 个 待 解决 的 议题 ， 人 们 需要 在 保护 个 人 隐私 以 及 大 数据 分 析 应 用 之 间 找到 一 个 平衡 点 。 


